CN116957070A - 多任务训练方法和装置、存储介质及电子设备 - Google Patents
多任务训练方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116957070A CN116957070A CN202310365148.4A CN202310365148A CN116957070A CN 116957070 A CN116957070 A CN 116957070A CN 202310365148 A CN202310365148 A CN 202310365148A CN 116957070 A CN116957070 A CN 116957070A
- Authority
- CN
- China
- Prior art keywords
- task
- current
- training
- data
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 219
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000012512 characterization method Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 64
- 238000009826 distribution Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 239000000758 substrate Substances 0.000 claims 1
- 238000003062 neural network model Methods 0.000 abstract description 23
- 239000000523 sample Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 8
- 230000006978 adaptation Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000013074 reference sample Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Pure & Applied Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种多任务训练方法和装置、存储介质及电子设备。该方法包括:获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集;获取与当前任务的当前任务参数子集相匹配的当前任务表征;利用当前任务表征以及与任务参数集中参考任务参数子集相匹配的参考任务表征,确定出当前任务和与参考任务参数子集对应的参考任务之间的任务相似度;在根据任务相似度从参考任务中确定出与当前任务关联的相似任务的情况下,对相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集;利用目标任务参数子集对预训练网络进行训练。解决了现有技术受限于单一的下游任务数据造成的训练后得到的神经网络模型的泛化性能较差的技术问题。
Description
技术领域
本申请涉及计算机领域,具体而言,涉及一种多任务训练方法和装置、存储介质及电子设备。
背景技术
在利用多任务的任务数据对神经网络模型进行预训练的过程中,往往需要对神经网络模型中所涉及的大量的网络参数进行微调。目前常用的调整方式主要是针对多任务中下游任务的任务数据,但这样很容易导致对下游任务数据的过拟合,从而阻碍对该神经网络模型的泛化能力的提升。
也就是说,相关技术中提供的针对多任务的训练方式,受限于单一的下游任务数据,从而造成训练后得到的神经网络模型的泛化性能较差的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种多任务训练方法和装置、存储介质及电子设备,以至少解决现有技术受限于单一的下游任务数据造成的训练后得到的神经网络模型的泛化性能较差的技术问题。
根据本申请实施例的一个方面,提供了一种多任务训练方法,包括:获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集,其中,上述任务参数集中包括与上述多任务中每个任务各自对应的任务参数子集;获取与当前任务的当前任务参数子集相匹配的当前任务表征;利用上述当前任务表征以及与上述任务参数集中参考任务参数子集相匹配的参考任务表征,确定出上述当前任务和与上述参考任务参数子集对应的参考任务之间的任务相似度,其中,上述参考任务为上述多任务中除上述当前任务之外的任务;在根据上述任务相似度从上述参考任务中确定出与上述当前任务关联的相似任务的情况下,对上述相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集;利用上述目标任务参数子集对上述预训练网络进行训练。
根据本申请实施例的另一方面,还提供了一种多任务训练装置,包括:第一获取单元,用于获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集,其中,上述任务参数集中包括与上述多任务中每个任务各自对应的任务参数子集;第二获取单元,用于获取与当前任务的当前任务参数子集相匹配的当前任务表征;确定单元,用于利用上述当前任务表征以及与上述任务参数集中参考任务参数子集相匹配的参考任务表征,确定出上述当前任务和与上述参考任务参数子集对应的参考任务之间的任务相似度,其中,上述参考任务为上述多任务中除上述当前任务之外的任务;融合单元,用于在根据上述任务相似度从上述参考任务中确定出与上述当前任务关联的相似任务的情况下,对上述相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集;训练单元,用于利用上述目标任务参数子集对上述预训练网络进行训练。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述多任务训练方法。
根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上多任务训练方法。
根据本申请实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的多任务训练方法。
在本申请实施例中,获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集,其中,上述任务参数集中包括与上述多任务中每个任务各自对应的任务参数子集。然后,获取与当前任务的当前任务参数子集相匹配的当前任务表征。进而,利用上述当前任务表征以及与上述任务参数集中参考任务参数子集相匹配的参考任务表征,确定出上述当前任务和与上述参考任务参数子集对应的参考任务之间的任务相似度,其中,上述参考任务为上述多任务中除上述当前任务之外的任务。接着,在根据上述任务相似度从上述参考任务中确定出与上述当前任务关联的相似任务的情况下,对上述相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集。从而,利用上述目标任务参数子集对上述预训练网络进行训练。也就是说,在本申请实施例中,基于对当前任务对应当前任务参数子集与相似任务对应的任务参数子集进行加权插值融合,获取到的目标任务参数子集,来对上述预训练网络进行训练。换言之,在本申请实施例中,当前任务所对应的目标任务参数子集,是基于当前任务对应的当前任务参数子集与相似任务对应的任务参数子集获取到的,而不仅仅依赖于当前任务所对应的下游任务来进行获取。从而使得神经网络模型中对应的网络参数不仅仅针对多任务中下游任务的任务数据,实现了提高神经网络模型泛化性能的技术效果。进而避免了现有技术中对下游任务数据的过拟合,所导致的该神经网络模型的泛化性能较差的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的多任务训练方法的网络结构示意图;
图2是根据本申请实施例的一种可选的多任务训练方法的流程图;
图3是根据本申请实施例的一种可选的多任务训练方法的示意图;
图4是根据本申请实施例的另一种可选的多任务训练方法的示意图;
图5是根据本申请实施例的又一种可选的多任务训练方法的示意图;
图6是根据本申请实施例的又一种可选的多任务训练方法的示意图;
图7是根据本申请实施例的又一种可选的多任务训练方法的示意图;
图8是根据本申请实施例的又一种可选的多任务训练方法的示意图;
图9是根据本申请实施例的一种可选的多任务训练装置的结构示意图;
图10是根据本申请实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种多任务训练方法,可选地,作为一种可选的实施方式,上述多任务训练方法可以但不限于应用于如图1所示的预训练网络中。并执行以下步骤,向如图1所示的预训练网络中输入多任务的任务数据进行训练,进而获取在预训练网络中对多任务的任务数据进行预训练后输出的任务参数集,其中,任务参数集中包括与多任务中每个任务各自对应的任务参数子集。接着获取与当前任务的当前任务参数子集相匹配的当前任务表征。利用当前任务表征以及与任务参数集中参考任务参数子集相匹配的参考任务表征,确定出当前任务和与参考任务参数子集对应的参考任务之间的任务相似度,其中,参考任务为多任务中除当前任务之外的任务。然后在根据任务相似度从参考任务中确定出与当前任务关联的相似任务的情况下,对相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集。从而利用目标任务参数子集对预训练网络进行训练。
在本申请实施例中,基于当前任务对应的当前任务参数子集与相似任务对应的任务参数子集,获取当前任务所对应的目标任务参数子集,而不仅仅依赖于当前任务所对应的下游任务来进行获取。从而使得神经网络模型中对应的网络参数不仅仅针对多任务中下游任务的任务数据。进而避免了现有技术中下游任务数据的过拟合,从而阻碍对该神经网络模型的泛化能力的提升的技术问题。实现了提升神经网络模型的准确性、提高神经网络模型泛化性能的技术效果。
可选地,作为一种可选的方案,如图2所示,上述多任务训练方法包括:
S202,获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集,其中,任务参数集中包括与多任务中每个任务各自对应的任务参数子集;
需要说明的是,上述多任务训练方法可以但不限于应用于多任务网络模型的训练场景当中,具体而言,这里的多任务网络模型可以但不限于用于指示多模态网络模型。
进一步地,这里的预训练网络可以但不限于用于指示多模态网络。上述多任务中可以但不限于包括多种类型的任务,如图片识别任务、语音识别任务、视频识别任务、语音加视频识别任务等等。
这里的任务数据可以但不限于包括,对多任务在预训练网络进行预训练所对应的输入的数据以及输入数据对应的标注。
这里的任务参数集可以但不限于用于指示,多任务中的各个任务分别基于预训练网络进行预训练后得到的任务子集所组成的参数集。
此外,还需要说明的是,预训练网络还对应于一组固定的网络参数(即骨干网络参数),在预训练网络对多任务进行预训练的过程中,骨干网络参数是固定不变的。
S204,获取与当前任务的当前任务参数子集相匹配的当前任务表征;
以上述预训练网络用于指示多模态网络为例,这里的当前任务可以但不限于用于指示上述多任务中当前正在进行预训练的任务。
可选地,上述当前任务参数子集可以但不限于用于指示,对当前任务进行预训练处理后获取到的任务参数子集。
需要说明的是,在本实施例中,可以但不限于采用大语言模型的低阶适应(Low-RanK Adaptation of Large Language Models,简称为LoRA)、提示微调(即PromptTuning)、Adapter等高效的参数微调方法,在骨干预训练网络(即预训练网络)的基础上,针对当前任务添加一部分任务参数(即当前任务参数子集)。
进一步地,可以但不限于基于当前任务所对应的费舍信息量矩阵的对角线元素获取到上述当前任务表征。具体而言,当前任务表征可以为当前任务所对应的费舍信息量矩阵中所有的对角线元素,还可以为当前任务所对应的费舍信息量矩阵中所有的对角线元素中一部分对角线元素。在本实施例中,对此不进行任何限定。
S206,利用当前任务表征以及与任务参数集中参考任务参数子集相匹配的参考任务表征,确定出当前任务和与参考任务参数子集对应的参考任务之间的任务相似度,其中,参考任务为多任务中除当前任务之外的任务;
需要说明的是,这里的参考任务参数子集可以但不限于用于指示,对参考任务进行预训练处理后获取到的参考任务参数子集。具体而言,可以但不限于基于参考任务所对应的费舍信息量矩阵的对角线元素获取到上述参考任务表征。具体地,参考任务表征可以为参考任务所对应的费舍信息量矩阵中所有的对角线元素,还可以为参考任务所对应的费舍信息量矩阵中所有的对角线元素中一部分对角线元素。在本实施例中,对此不进行任何限定。
S208,在根据任务相似度从参考任务中确定出与当前任务关联的相似任务的情况下,对相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集;
可选地,在本实施例中,假设上述多任务中包括N个任务。换言之,在上述多任务中包括N-1个与当前任务对应的参考任务。那么这里的相似任务可以但不限于为对上述N-1个参考任务中与当前任务相似度降序排序后的前K个参考任务。需要说明的是,上述K为不小于1的正整数,上述N为不小于2的正整数。
S210,利用目标任务参数子集对预训练网络进行训练。
假设这里的多任务训练方法应用于多模态网络模型的训练场景,由以下步骤对上述方法进行完整的解释说明:
采用LoRA,或Prompt Tuning,或Adapter等高效的参数微调方法,在骨干预训练网络(即预训练网络)的基础上,获取对多任务中的各个任务分别添加的一部分任务参数(即任务参数子集)。LoRA主要用于处理大模型的参数微调。LoRA建议冻结预训练模型的权重并在每个预训练网络架构中注入可训练层(即分解矩阵)。进而不需要为大多数模型权重计算梯度,所以大大减少了需要训练参数的数量并且降低了对图形处理器内存的要求。PromptTuning是一种参数微调范式,PromptTuning可以对参数进行有效的训练。具体而言,PromptTuning采用冻结的语言模型来微调连续提示向量的方法,大大减少了训练时每个任务的存储和内存使用。Adapter是一种高效的参数微调方法,Adapter方法不需要微调预训练模型的全部参数。具体地,Adapter通过引入少量针对特定任务的参数,来存储有关该任务的知识,降低了对模型微调的算力要求。
进一步地,获取与当前进行预训练的任务(即当前任务)的当前任务参数子集相匹配的当前任务表征。接着,获取多任务中除当前任务以外的其他各个任务(即参考任务)的参考任务子集分别对应的参考任务表征。
进而利用当前任务表征以及与参考任务参数子集相匹配的参考任务表征,确定出当前任务和与参考任务参数子集对应的参考任务之间的任务相似度。
接着,获取任务相似度最大的K个参考任务作为与当前任务关联的相似任务。
然后,对相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集。从而利用目标任务参数子集对预训练网络进行训练。
在本申请实施例中,获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集,其中,上述任务参数集中包括与上述多任务中每个任务各自对应的任务参数子集。然后,获取与当前任务的当前任务参数子集相匹配的当前任务表征。进而,利用上述当前任务表征以及与上述任务参数集中参考任务参数子集相匹配的参考任务表征,确定出上述当前任务和与上述参考任务参数子集对应的参考任务之间的任务相似度,其中,上述参考任务为上述多任务中除上述当前任务之外的任务。接着,在根据上述任务相似度从上述参考任务中确定出与上述当前任务关联的相似任务的情况下,对上述相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集。从而,利用上述目标任务参数子集对上述预训练网络进行训练。也就是说,在本申请实施例中,基于对当前任务对应当前任务参数子集与相似任务对应的任务参数子集进行加权插值融合,获取到的目标任务参数子集,来对上述预训练网络进行训练。换言之,在本申请实施例中,当前任务所对应的目标任务参数子集,是基于当前任务对应的当前任务参数子集与相似任务对应的任务参数子集获取到的,而不仅仅依赖于当前任务所对应的下游任务来进行获取。实现了提高神经网络模型泛化性能的技术效果。进而避免了现有技术中对下游任务数据的过拟合,所导致的该神经网络模型的泛化性能较差的技术问题。
可选地,作为一种可选的方案,获取与当前任务的当前任务参数子集相匹配的当前任务表征包括:
S1,获取当前任务的当前任务数据和当前任务参数子集,其中,当前任务数据包括当前任务对应的当前样本数据和当前样本标注数据;
S2,基于当前任务数据和当前任务参数子集,构建与当前任务相匹配的当前任务信息矩阵;
S3,从任务信息矩阵中提取当前任务表征。
需要说明的是,这里的当前任务数据可以但不限于用于指示,在预训练网络中对当前任务进行预训练的训练输入数据以及训练输入数据所对应的标注。具体地,上述当前样本数据可以但不限于用于指示在预训练网络中对当前任务进行预训练的训练输入数据,上述当前样本标注数据可以但不限于用于指示上述训练输入数据对应的标注数据。
进一步地,这里的与当前任务相匹配的当前任务信息矩阵可以但不限于用于指示与当前任务相匹配的费舍信息量矩阵。
可选地,作为一种可选的实施方式,这里的从任务信息矩阵中提取当前任务表征可以但不限于包括:获取与当前任务相匹配的费舍信息量矩阵中的全部对角线元素,作为当前任务表征,或,获取当前任务相匹配的费舍信息量矩阵中的部分对角线元素,作为当前任务表征。在本实施例中,对此不进行任何限定。
再进一步地,作为一种可选的实施例,假设上述多任务训练方法应用于多模态网络模型的训练场景中,基于以下步骤对上述方法进行完整的说明:
获取当前任务的当前任务数据(即训练输入数据、训练输入数据所对应的标注)以及当前任务参数子集。然后,基于当前任务数据和当前任务参数子集,构建与当前任务相匹配的当前任务信息矩阵。进而,获取与当前任务相匹配的费舍信息量矩阵中的全部对角线元素,作为当前任务表征,或,获取当前任务相匹配的费舍信息量矩阵中的部分对角线元素,作为当前任务表征。
在本申请实施例中,获取当前任务的当前任务数据和当前任务参数子集,其中,当前任务数据包括当前任务对应的当前样本数据和当前样本标注数据。然后,基于当前任务数据和当前任务参数子集,构建与当前任务相匹配的当前任务信息矩阵。进而,从任务信息矩阵中提取当前任务表征。换言之,在本实施例中,基于当前任务数据和当前任务参数子集,构建的当前任务相匹配的当前任务信息矩阵,来获取到当前任务对应的当前任务表征。进而提高了获取当前任务表征的效率,提升了当前任务表征的准确性。
可选地,作为一种可选的方案,基于当前任务数据和当前任务参数子集,构建与当前任务相匹配的当前任务信息矩阵包括:
基于当前样本数据、当前样本标注数据和当前任务参数子集,确定与当前任务相匹配的任务联合分布矩阵;
需要说明的是,这里的任务联合分布矩阵可以但不限于用于指示Pθ(x,y)(即模型建模的任务数据联合分布)。这里的Pθ(x,y)(即模型建模的任务数据联合分布)可以但不限于用于指示,为获取(即当前任务参数子集)对当前任务进行预训练的输出数据与输入数据所对应的标注(即当前样本标注数据)相同的概率分布。具体而言,上述x可以但不限于用于指示当前样本数据,上述y可以但不限于用于指示当前样本标注数据,上述θ可以但不限于用于指示/>(即当前任务参数子集)。
对任务联合分布矩阵进行转换运算,以得到当前任务信息矩阵;
可选地,作为一种可选的实施方式,可以但不限于基于以下公式对任务联合分布矩阵进行转换运算:
其中,上述Fθ为与当前任务相匹配的费舍信息量矩阵(即当前任务信息矩阵),上述Pθ(x,y)为模型建模的任务数据联合分布,上述x为当前样本数据,上述y为当前样本标注数据,上述θ为(即当前任务参数子集)。
从任务信息矩阵中提取当前任务表征包括:从当前任务信息矩阵的对角线元素中提取当前任务表征。
举例而言,这里的从当前任务信息矩阵的对角线元素中提取当前任务表征可以但不限于包括:获取与当前任务相匹配的费舍信息量矩阵中的全部对角线元素,作为当前任务表征,或,获取当前任务相匹配的费舍信息量矩阵中的部分对角线元素,作为当前任务表征。在本实施例中,对此不进行任何限定。
在本申请实施例中,基于当前样本数据、当前样本标注数据和当前任务参数子集,确定与当前任务相匹配的任务联合分布矩阵;对任务联合分布矩阵进行转换运算,以得到当前任务信息矩阵;从当前任务信息矩阵的对角线元素中提取当前任务表征。换言之,在本实施例中通过对与当前任务相匹配的任务联合分布矩阵,进行转换运算得到的当前任务信息矩阵的对角线元素,获取当前任务表征,以高效地获取到准确的当前任务表征。进而实现了提高获取当前任务表征的效率,提升当前任务表征的准确性的技术效果。
可选地,作为一种可选的方案,利用当前任务表征以及与任务参数集中参考任务参数子集相匹配的参考任务表征,确定出当前任务和与参考任务参数子集对应的参考任务之间的任务相似度包括:
依次计算出当前任务表征与每个参考任务表征之间的余弦相似度,作为当前任务与参考任务之间的任务相似度。
可选地,在上述依次计算出当前任务表征与每个参考任务表征之间的余弦相似度,作为当前任务与参考任务之间的任务相似度之前,上述方法还包括:依次基于每个参考任务的参考样本数据、参考样本标注数据以及参考任务参数子集确定与每个参考任务相匹配的任务联合分布矩阵;对与每个参考任务相匹配任务联合分布矩阵进行转换运算,以得到每个参考任务的参考任务信息矩阵;从每个参考任务的参考任务信息矩阵的对角线元素中提取每个参考任务的参考任务表征。
在本申请实施例中,基于当前任务表征与每个参考任务表征之间的余弦相似度,确定当前任务与参考任务之间的任务相似度,以获取到准确的任务相似度。进而实现了提高任务相似度准确性使得技术效果。
可选地,作为一种可选的方案,在依次计算出当前任务表征与每个参考任务表征之间的余弦相似度,作为当前任务与参考任务之间的任务相似度之后,还包括:
S1,对计算出的任务相似度按照降序进行排序,得到相似度序列;
S2,将相似度序列中前K个任务相似度对应的参考任务,确定为与当前任务关联的相似任务,其中,K为大于等于1且小于等于N的正整数,N为多任务的任务数量。
可选地,以上述N为6,上述K为4为例,假设当前任务与参考任务1、参考任务2、参考任务3、参考任务4、参考任务5之间的任务相似度分别为90%、80%、60%、75%、70%。以如下步骤对上述方法进行完整的解释说明:
对上述任务相似度按照降序进行排序,得到相似度序列90%、80%、75%、70%、60%。将相似度序列中前4个任务相似度对应的参考任务(即参考任务1、参考任务2、参考任务4、参考任务5),确定为与当前任务关联的相似任务。
需要说明的是,上述实施例是为了便于对上述方法进行解释说明所采用的一种实施例,上述N以及上述K的数值并不局限于本实施例中所举例子的取值。
在本申请实施例中,对计算出的任务相似度按照降序进行排序,得到相似度序列;将相似度序列中前K个任务相似度对应的参考任务,确定为与当前任务关联的相似任务,其中,K为大于等于1且小于等于N的正整数,N为多任务的任务数量。换言之,在本实施例中获取多任务中包括的所有参考任务中与当前任务最相似的K个参考任务,作为与当前任务关联的相似任务。以保证上述相似任务的准确性,进而提升了多任务训练的准确性。
可选地,作为一种可选的方案,对相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集包括:
S1,获取预先配置的插值权重系数集;
S2,确定出与插值权重系数集中每个插值权重系数分别对应的相似任务参数子集;
S3,对插值权重系数和确定对应的相似任务参数子集进行加权插值融合计算,以得到目标任务参数子集。
假设上述多任务训练方法应用于多模态网络模型的训练场景中,这里的插值权重系数集可以但不限于用于指示,预先维护(即自定义)的一组插值权重系数。具体地,上述插值权重系数集可以用{αt,α1,α2,…,αk}来表示。需要说明的是,上述插值权重系数集中的所有插值权重系数的和为1(即∑α=1)。
以上述多任务训练方法应用于多模态网络模型的训练场景中为例,由以下步骤对上述方法进行完整的解释说明:
获取自定义的插值权重系数集(即{αt,α1,α2,…,αk})。然后,确定出与插值权重系数集中每个插值权重系数分别对应的相似任务参数子集(即)。对{αt,α1,α2,…,αk}和/>进行加权插值融合计算(即 ),以得到目标任务参数子集(即/>)。
在本申请实施例中,获取预先配置的插值权重系数集。然后,确定出与插值权重系数集中每个插值权重系数分别对应的相似任务参数子集。进而,对插值权重系数和确定对应的相似任务参数子集进行加权插值融合计算,以得到目标任务参数子集。换言之,在本申请实施例中,通过对插值权重系数集与相似任务参数子集进行加权插值融合计算,以得到泛化的目标任务参数子集。从而使得神经网络模型中对应的网络参数不仅仅针对多任务中下游任务的任务数据。避免了现有技术中下游任务数据的过拟合,从而阻碍对该神经网络模型的泛化能力的提升的技术问题。实现了提升神经网络模型的准确性、提高神经网络模型泛化性能的技术效果。
可选地,作为一种可选的方案,利用目标任务参数子集对预训练网络进行训练包括:
S1,在配置有目标任务参数子集的预训练网络中,对当前任务的当前任务数据进行训练,直至达到预训练收敛条件,其中,预训练收敛条件用于指示预训练网络的训练次数达到目标阈值;
S2,将预训练网络达到预训练收敛条件时的参数,确定为与当前任务相适配的结果任务参数。
需要说明的是,可以但不限于基于以下方式获取到上述与当前任务相适配的结果任务参数:
针对下游任务对目标任务参数子集(即)进行数据微调,得到与当前任务相适配的结果任务参数(即/>)。
其中,上述针对下游任务对目标任务参数子集(即)进行数据微调可以但不限于包括:/>
具体而言,上述L代表损失函数(如交叉熵(cross entropy)),上述θ0代表预训练网络对应的固定的网络参数(即骨干网络参数)。
在本申请实施例中,在配置有目标任务参数子集的预训练网络中,对当前任务的当前任务数据进行训练,直至达到预训练收敛条件,其中,预训练收敛条件用于指示预训练网络的训练次数达到目标阈值。然后,将预训练网络达到预训练收敛条件时的参数,以快速地获取与当前任务相适配的泛华的结果任务参数。从而使得神经网络模型中对应的网络参数不仅仅针对多任务中下游任务的任务数据。实现了提高神经网络模型泛化性能的技术效果。进而避免了现有技术中对下游任务数据的过拟合,所导致的该神经网络模型的泛化性能较差的技术问题。
可选地,作为一种可选的方案,获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集包括:
在预训练网络中对多任务中各个任务的任务数据分别进行独立预训练,得到包括多个任务参数子集的任务参数集。
换言之,在本实施例中,在预训练网络中对多任务中各个任务的任务数据可以但不限于同时并行执行,或,各自按照各自指定的时间进行执行,而并不是对上述多任务进行依次的串行执行。也就是说,在上述多任务中的各个任务的任务数据分别进行独立预训练的过程中,多任务中的各个任务是互不影响的。
在本申请实施例中,在预训练网络中对多任务中各个任务的任务数据分别进行独立预训练,得到包括多个任务参数子集的任务参数集。换句话说,在本实施例中通过对多任务中各个任务的预训练进行解耦的方式,使得上述多任务中的各个任务的任务数据的预训练互不影响。便于直接扩展新增任务,而不会影响历史训练过的任务的训练结果。还避免了传统多任务非独立预训练所产生的负迁移现象。
可选地,作为一种可选的方案,在预训练网络中对多任务中各个任务的任务数据分别进行独立预训练,得到包括多个任务参数子集的任务参数集之后,还包括:
S1,接收新增任务的任务数据;
需要说明的是,这里的是新增任务可以但不限于除上述多任务以外新增的任务。上述新增任务的任务数据可以但不限于包括,新增任务对应的新增样本数据以及新增样本标注数据。
S2,在预训练网络中对新增任务的任务数据进行独立预训练,得到新增任务的任务参数子集;
可选地,在本实施例中,可以但不限于采用大语言模型的低阶适应(Low-RanKAdaptation of Large Language Models,简称为LoRA)、提示微调(即Prompt Tuning)、Adapter等高效的参数微调方法,在骨干预训练网络(即预训练网络)的基础上,获取为新增任务添加的一部分任务参数(即新增任务的任务参数子集)。
S3,将新增任务的任务参数子集添加到任务参数集中。
以上述多任务训练方法应用于多任务网络模型的训练场景中为例,由以下步骤对上述方法进行解释说明:
接收除上述多任务以外的新增任务。接着在预训练网络中对新增任务的任务数据进行独立预训练,得到新增任务的任务参数子集。进而将新增任务的任务参数子集添加到任务参数集中。
在本申请实施例中,接收新增任务的任务数据。然后在预训练网络中增任务的任务数据进行独立预训练,得到新增任务的任务参数子集。进而,将新增任务的任务参数子集添加到任务参数集中。换言之,在本申请实施例中通过对多任务中各个任务的预训练进行解耦的方式,使得上述多任务中的各个任务的任务数据与新增任务的预训练互不影响。便于直接扩展新增任务,而不会影响历史训练过的任务的训练结果。还避免了传统多任务非独立预训练所产生的负迁移现象。
可选地,作为一种可选的方案,在预训练网络中对多任务中各个任务的任务数据分别进行独立预训练,得到包括多个任务参数子集的任务参数集之前,还包括:
获取多任务的任务数据,其中,多任务的任务数据包括以下至少之一:图片处理任务的图片数据、文本处理任务的文本数据、图文处理任务的多模态数据。
在本申请实施例中,获取丰富的多任务的任务数据,即,图片处理任务的图片数据、文本处理任务的文本数据、图文处理任务的多模态数据中的至少之一。进而在预训练网络中对多任务中各个任务的任务数据分别进行独立预训练,得到包括多个任务参数子集的任务参数集之前。从而提升了任务参数集的准确性与全面性,进而提升了训练后得到的神经网络模型的泛化性能。
需要说明的是,在上述多任务训练方法中,对获取上述多任务中的各个任务所对应的目标任务参数子集的方式,以及利用上述多任务中的各个任务所对应的目标任务参数子集分别对上述预训练网络进行训练的方式。均可参考对上述当前任务所对应的目标任务参数子集的方式,以及利用上述当前任务所对应的目标任务参数子集对上述预训练网络进行训练的方式。在本实施例中,对此不进行赘述。
作为一种可选的实施方式,以上述多任务训练方法应用于多任务网络模型的训练场景中为例,由图3所示的3个步骤对上述方法进行解释说明:
如图3所示,步骤1,为任务参数学习。在步骤1中具体包括如下步骤:
选择一种参数高效的微调方法,例如Adapter或,LoRA或,Prompt Tuning对参数进行微调。即,在冻结骨干预训练网络(即预训练模型)的基础上对于每个任务TasKi添加一部分任务参数。
然后,执行步骤2,相似任务预测。如图3所示,在步骤2中具体包括如下步骤:
基于步骤1中学习得到的任务参数,获取任务TasKt所对应的参数(即)。基于/>获取TasKt所对应的费舍信息量矩阵(Fisher Information Matrix,FIM),具体公式如下所示:/>
其中,这里的这里Pθ(x,y)为任务联合分布矩阵(即模型建模的任务数据联合分布)。这里的Pθ(x,y)用于指示,为获取φt(即当前任务参数子集)对任务TasKt进行预训练的输出数据y1与输入数据所对应的标注(即样本标注数据)相同的概率分布。上述Fθ为与TasKt相匹配的费舍信息量矩阵,上述x为TasKt的输入样本数据,上述y为TasKt的输入样本标注数据,上述θ为(即TasKt任务参数子集)。
输入多模态任务所对应的任务数据(即图片数据、文本数据、图文数据),获取TasKt对应的参考任务集合(即TasK1……TasKn)。基于参考任务集合中的各个参考任务所对应的参考任务参数子集,获取上述各个参考任务所对应的费舍信息量矩阵。基于上述各个参考任务所对应的费舍信息量矩阵,分别获取上述各个参考任务所对应的参考任务表征。
获取TasKt的任务表征与上述各个参考任务所对应的参考任务表征的余弦相似度。将余弦相似度最高的K个参考任务,确定为相似任务。
获取上述相似任务中各个相似任务所对应的相似任务参数,组成相似任务集合(即)。
接着,执行步骤3,参数插值融合。如图3所示在步骤3中具体包括如下步骤:获取预先维护的(即自定义的)一组插值权重系数(即{αt,α1,α2,…,αk})。
对步骤2中获取的相似任务参数集合(即),进行参数加权插值融合得到融合后的参数/>(即/>∑α=1)。
针对下游任务数据微调融合后的参数即可得到最终的参数即式中L代表损失函数,如交叉熵(cross entropy),θ0代表骨干训练网络固定的参数。
在本实施例中,对多模态任务关系进行建模,为下游任务检索相似的辅助任务数据,将下游任务的专家参数与辅助任务的任务参数进行插值融合训练,从而达到提升模型泛化能力的效果。进一步地,对多任务进行分布式学习训练,从而实现对多任务学习过程的解耦,以避免出现传统多任务学习产生的负迁移现象。
下面,将依据图4-图8对本申请实施例带来的技术效果进行阐述:
本申请实施例提出一种解耦式多任务的多模态预训练微调方法,通过专家参数存储任务信息,对多模态任务关系进行建模,解耦多任务学习,可以分布式利用专家参数学习不同任务加快训练效率,为目标下游任务检索相似的辅助任务参数进行插值融合,提升预训练模型在下游任务的性能,保证鲁棒的表征学习能力。图4展示了该方法(π-Adapter)与相关的技术在多模态下游任务的性能对比,在丰富的多模态应用基准和不同的模型尺寸上,本申请实施例均取得了性能上的优势。
图5展示了本申请实施例与相关的方法在计算机视觉下游任务的性能对比,在全量数据以及少量数据(few shot)的设置下,本申请实施例均取得了性能上的优势,并且在数据稀少的情况下,本申请实施例在性能上的提升更加显著。
图6展示了本申请实施例与相关的方法在自然语言处理下游任务的性能对比,在全量数据以及无数据(zero shot)的设置下,本申请实施例均取得了性能上的优势,并且在数据稀少的情况下,本申请实施例在性能上的提升更加显著。同时本申请实施例应用在自然语言处理的预训练模型(T5)时,同样超越了相关的技术中的方法。
图7展示了本申请实施例与相关的方法在测试集分布发生偏移时的性能对比,即针对数据集A进行优化,但在数据集B上进行测试时的性能下降。本申请实施例与相关的方法相比,面对测试分布发生偏移时有更加鲁棒的性能。
图8展示了本申请实施例与相关的方法在多任务学习下的性能对比,即针对数据集A,B,C同时进行优化。本申请实施例与相关的方法相比,利用不同的专家参数解耦建模不同任务并进行融合,在多任务学习下显著超越以前方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
根据本申请实施例的另一个方面,还提供了一种用于实施上述多任务训练方法的多任务训练装置。如图9所示,该装置包括:
第一获取单元902,用于获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集,其中,任务参数集中包括与多任务中每个任务各自对应的任务参数子集;
第二获取单元904,用于获取与当前任务的当前任务参数子集相匹配的当前任务表征;
确定单元906,用于利用当前任务表征以及与任务参数集中参考任务参数子集相匹配的参考任务表征,确定出当前任务和与参考任务参数子集对应的参考任务之间的任务相似度,其中,参考任务为多任务中除当前任务之外的任务;
融合单元908,用于在根据任务相似度从参考任务中确定出与当前任务关联的相似任务的情况下,对相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集;
训练单元910,用于利用目标任务参数子集对预训练网络进行训练。
可选地,第二获取单元包括:获取模块,用于获取当前任务的当前任务数据和当前任务参数子集,其中,当前任务数据包括当前任务对应的当前样本数据和当前样本标注数据;构建模块,用于基于当前任务数据和当前任务参数子集,构建与当前任务相匹配的当前任务信息矩阵;提取模块,用于从任务信息矩阵中提取当前任务表征。
可选地,构建模块还用于基于当前任务数据和当前任务参数子集,构建与当前任务相匹配的当前任务信息矩阵包括:基于当前样本数据、当前样本标注数据和当前任务参数子集,确定与当前任务相匹配的任务联合分布矩阵;对任务联合分布矩阵进行转换运算,以得到当前任务信息矩阵;提取模块还用于从任务信息矩阵中提取当前任务表征包括:从当前任务信息矩阵的对角线元素中提取当前任务表征。
可选地,确定单元包括:计算模块,用于依次计算出当前任务表征与每个参考任务表征之间的余弦相似度,作为当前任务与参考任务之间的任务相似度。
可选地,确定单元还包括:排序模块,用于对计算出的任务相似度按照降序进行排序,得到相似度序列;确定模块,用于将相似度序列中前K个任务相似度对应的参考任务,确定为与当前任务关联的相似任务,其中,K为大于等于1且小于等于N的正整数,N为多任务的任务数量。
可选地,融合单元包括:获取模块,用于获取预先配置的插值权重系数集;第一确定模块,用于确定出与插值权重系数集中每个插值权重系数分别对应的相似任务参数子集;第一计算模块,对插值权重系数和确定对应的相似任务参数子集进行加权插值融合计算,以得到目标任务参数子集。
可选地,训练单元包括:训练模块,用于在配置有目标任务参数子集的预训练网络中,对当前任务的当前任务数据进行训练,直至达到预训练收敛条件,其中,预训练收敛条件用于指示预训练网络的训练次数达到目标阈值;第二确定模块,用于将预训练网络达到预训练收敛条件时的参数,确定为与当前任务相适配的结果任务参数。
可选地,第一获取单元还包括:第一训练模块,用于在预训练网络中对多任务中各个任务的任务数据分别进行独立预训练,得到包括多个任务参数子集的任务参数集。
可选地,第一获取单元还包括:接收模块,用于接收新增任务的任务数据;第二训练模块,用于在预训练网络中对新增任务的任务数据进行独立预训练,得到新增任务的任务参数子集;添加模块,用于将新增任务的任务参数子集添加到任务参数集中。
可选地,第一获取单元还包括:获取模块,用于获取多任务的任务数据,其中,多任务的任务数据包括以下至少之一:图片处理任务的图片数据、文本处理任务的文本数据、图文处理任务的多模态数据。
具体实施例可以参考上述多任务训练方法中所示示例,本示例中在此不再赘述。
根据本申请实施例的又一个方面,还提供了一种用于实施上述多任务训练方法的电子设备。本实施例以该电子设备为服务器为例来说明。如图10所示,该电子设备包括存储器1002和处理器1004,该存储器1002中存储有计算机程序,该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集,其中,任务参数集中包括与多任务中每个任务各自对应的任务参数子集;
S2,获取与当前任务的当前任务参数子集相匹配的当前任务表征;
S3,利用当前任务表征以及与任务参数集中参考任务参数子集相匹配的参考任务表征,确定出当前任务和与参考任务参数子集对应的参考任务之间的任务相似度,其中,参考任务为多任务中除当前任务之外的任务;
S4,在根据任务相似度从参考任务中确定出与当前任务关联的相似任务的情况下,对相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集;
S5,利用目标任务参数子集对预训练网络进行训练。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本申请实施例中的多任务训练方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的多任务训练方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1002具体可以但不限于用于存储任务参数集等信息。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述多任务训练装置中的第一获取单元902、第二获取单元904、确定单元906、融合单元908及训练单元910。此外,还可以包括但不限于上述多任务训练装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(NetworK Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1008用于显示任务参数子集等信息;和连接总线1010,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时,执行本申请实施例提供的各种功能。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集,其中,任务参数集中包括与多任务中每个任务各自对应的任务参数子集;
S2,获取与当前任务的当前任务参数子集相匹配的当前任务表征;
S3,利用当前任务表征以及与任务参数集中参考任务参数子集相匹配的参考任务表征,确定出当前任务和与参考任务参数子集对应的参考任务之间的任务相似度,其中,参考任务为多任务中除当前任务之外的任务;
S4,在根据任务相似度从参考任务中确定出与当前任务关联的相似任务的情况下,对相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集;
S5,利用目标任务参数子集对预训练网络进行训练。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种多任务训练方法,其特征在于,包括:
获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集,其中,所述任务参数集中包括与所述多任务中每个任务各自对应的任务参数子集;
获取与当前任务的当前任务参数子集相匹配的当前任务表征;
利用所述当前任务表征以及与所述任务参数集中参考任务参数子集相匹配的参考任务表征,确定出所述当前任务和与所述参考任务参数子集对应的参考任务之间的任务相似度,其中,所述参考任务为所述多任务中除所述当前任务之外的任务;
在根据所述任务相似度从所述参考任务中确定出与所述当前任务关联的相似任务的情况下,对所述相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集;
利用所述目标任务参数子集对所述预训练网络进行训练。
2.根据权利要求1所述的方法,其特征在于,所述获取与当前任务的当前任务参数子集相匹配的当前任务表征包括:
获取所述当前任务的当前任务数据和所述当前任务参数子集,其中,所述当前任务数据包括所述当前任务对应的当前样本数据和当前样本标注数据;
基于所述当前任务数据和所述当前任务参数子集,构建与所述当前任务相匹配的当前任务信息矩阵;
从所述任务信息矩阵中提取所述当前任务表征。
3.根据权利要求2所述的方法,其特征在于,
所述基于所述当前任务数据和所述当前任务参数子集,构建与所述当前任务相匹配的当前任务信息矩阵包括:基于所述当前样本数据、所述当前样本标注数据和所述当前任务参数子集,确定与所述当前任务相匹配的任务联合分布矩阵;对所述任务联合分布矩阵进行转换运算,以得到所述当前任务信息矩阵;
所述从所述任务信息矩阵中提取所述当前任务表征包括:从所述当前任务信息矩阵的对角线元素中提取所述当前任务表征。
4.根据权利要求1所述的方法,其特征在于,所述利用所述当前任务表征以及与所述任务参数集中参考任务参数子集相匹配的参考任务表征,确定出所述当前任务和与所述参考任务参数子集对应的参考任务之间的任务相似度包括:
依次计算出所述当前任务表征与每个所述参考任务表征之间的余弦相似度,作为所述当前任务与所述参考任务之间的所述任务相似度。
5.根据权利要求4所述的方法,其特征在于,在所述依次计算出所述当前任务表征与每个所述参考任务表征之间的余弦相似度,作为所述当前任务与所述参考任务之间的所述任务相似度之后,还包括:
对计算出的所述任务相似度按照降序进行排序,得到相似度序列;
将所述相似度序列中前K个所述任务相似度对应的所述参考任务,确定为与所述当前任务关联的所述相似任务,其中,K为大于等于1且小于等于N的正整数,N为所述多任务的任务数量。
6.根据权利要求1所述的方法,其特征在于,所述对所述相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集包括:
获取预先配置的插值权重系数集;
确定出与所述插值权重系数集中每个插值权重系数分别对应的所述相似任务参数子集;
对所述插值权重系数和确定对应的所述相似任务参数子集进行加权插值融合计算,以得到所述目标任务参数子集。
7.根据权利要求1所述的方法,其特征在于,所述利用所述目标任务参数子集对所述预训练网络进行训练包括:
在配置有所述目标任务参数子集的所述预训练网络中,对所述当前任务的当前任务数据进行训练,直至达到预训练收敛条件,其中,所述预训练收敛条件用于指示所述预训练网络的训练次数达到目标阈值;
将所述预训练网络达到所述预训练收敛条件时的参数,确定为与所述当前任务相适配的结果任务参数。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集包括:
在所述预训练网络中对所述多任务中各个任务的任务数据分别进行独立预训练,得到包括多个所述任务参数子集的所述任务参数集。
9.根据权利要求8所述的方法,其特征在于,所述在所述预训练网络中对所述多任务中各个任务的任务数据分别进行独立预训练,得到包括多个所述任务参数子集的所述任务参数集之后,还包括:
接收新增任务的任务数据;
在所述预训练网络中对所述新增任务的任务数据进行独立预训练,得到所述新增任务的任务参数子集;
将所述新增任务的任务参数子集添加到所述任务参数集中。
10.根据权利要求8所述的方法,其特征在于,所述在所述预训练网络中对所述多任务中各个任务的任务数据分别进行独立预训练,得到包括多个所述任务参数子集的所述任务参数集之前,还包括:
获取所述多任务的任务数据,其中,所述多任务的任务数据包括以下至少之一:图片处理任务的图片数据、文本处理任务的文本数据、图文处理任务的多模态数据。
11.一种多任务训练装置,其特征在于,包括:
第一获取单元,用于获取在预训练网络中对多任务的任务数据进行预训练后得到的任务参数集,其中,所述任务参数集中包括与所述多任务中每个任务各自对应的任务参数子集;
第二获取单元,用于获取与当前任务的当前任务参数子集相匹配的当前任务表征;
确定单元,用于利用所述当前任务表征以及与所述任务参数集中参考任务参数子集相匹配的参考任务表征,确定出所述当前任务和与所述参考任务参数子集对应的参考任务之间的任务相似度,其中,所述参考任务为所述多任务中除所述当前任务之外的任务;
融合单元,用于在根据所述任务相似度从所述参考任务中确定出与所述当前任务关联的相似任务的情况下,对所述相似任务的相似任务参数子集进行加权插值融合,得到目标任务参数子集;
训练单元,用于利用所述目标任务参数子集对所述预训练网络进行训练。
12.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序被处理器运行时执行所述权利要求1至10任一项中所述的方法。
13.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至10任一项所述方法的步骤。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310365148.4A CN116957070A (zh) | 2023-03-31 | 2023-03-31 | 多任务训练方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310365148.4A CN116957070A (zh) | 2023-03-31 | 2023-03-31 | 多任务训练方法和装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116957070A true CN116957070A (zh) | 2023-10-27 |
Family
ID=88448113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310365148.4A Pending CN116957070A (zh) | 2023-03-31 | 2023-03-31 | 多任务训练方法和装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116957070A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688176A (zh) * | 2023-12-04 | 2024-03-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于多语言预训练大模型的伪语言族聚类方法及装置 |
-
2023
- 2023-03-31 CN CN202310365148.4A patent/CN116957070A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688176A (zh) * | 2023-12-04 | 2024-03-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于多语言预训练大模型的伪语言族聚类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553480B (zh) | 图像数据处理方法、装置、计算机可读介质及电子设备 | |
CN110309874B (zh) | 负样本筛选模型训练方法、数据筛选方法和数据匹配方法 | |
CN111160191B (zh) | 一种视频关键帧提取方法、装置及存储介质 | |
CN111382868A (zh) | 神经网络结构搜索方法和神经网络结构搜索装置 | |
CN111652364A (zh) | 训练元学习网络的装置和方法 | |
CN111651576B (zh) | 一种基于迁移学习的多轮阅读理解方法 | |
CN112232889A (zh) | 一种用户兴趣画像扩展方法、装置、设备及存储介质 | |
CN112925926B (zh) | 多媒体推荐模型的训练方法、装置、服务器以及存储介质 | |
CN111709493A (zh) | 对象分类方法、训练方法、装置、设备及存储介质 | |
CN116957070A (zh) | 多任务训练方法和装置、存储介质及电子设备 | |
CN112819050A (zh) | 知识蒸馏和图像处理方法、装置、电子设备和存储介质 | |
CN111870959A (zh) | 一种游戏中的资源推荐方法及装置 | |
CN114332550A (zh) | 一种模型训练方法、系统及存储介质和终端设备 | |
CN114528474A (zh) | 推荐对象确定方法、装置、电子设备及存储介质 | |
US20220292132A1 (en) | METHOD AND DEVICE FOR RETRIEVING IMAGE (As Amended) | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN115146775B (zh) | 边缘设备推理加速方法、装置和数据处理系统 | |
CN114092162B (zh) | 推荐质量确定方法、推荐质量确定模型的训练方法及装置 | |
CN116668351A (zh) | 服务质量预测方法、装置、计算机设备及存储介质 | |
CN115439878A (zh) | 目标重识别模型抗遗忘训练方法、目标重识别方法及装置 | |
CN111784787B (zh) | 图像生成方法和装置 | |
CN110209878B (zh) | 视频处理方法、装置、计算机可读介质及电子设备 | |
CN115329183A (zh) | 数据处理方法、装置、存储介质及设备 | |
CN113822291A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN110704587A (zh) | 文本答案的查找方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |