CN116580223A - 数据处理及模型微调方法、装置、电子设备及存储介质 - Google Patents
数据处理及模型微调方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116580223A CN116580223A CN202310363069.XA CN202310363069A CN116580223A CN 116580223 A CN116580223 A CN 116580223A CN 202310363069 A CN202310363069 A CN 202310363069A CN 116580223 A CN116580223 A CN 116580223A
- Authority
- CN
- China
- Prior art keywords
- model
- task
- fine
- training
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 131
- 230000008569 process Effects 0.000 claims abstract description 28
- 238000003672 processing method Methods 0.000 claims abstract description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 37
- 238000013145 classification model Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000009966 trimming Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了数据处理及模型微调方法、装置、电子设备及存储介质,涉及计算机视觉、深度学习以及图像处理等人工智能领域。其中的数据处理方法可包括:获取预定的下游任务对应的待处理数据;根据下游任务对应的任务处理模型,对待处理数据进行处理,得到数据处理结果,其中,任务处理模型为根据下游任务对应的训练数据对预训练模型进行微调后得到的,微调的过程中,预训练模型中的目标参数保持不变,目标参数对应的残差变量发生更新,目标参数为预训练模型的模型参数中的至少一个,各目标参数分别具有对应的残差变量,微调后的残差变量与对应的目标参数之和作为微调后的目标参数。应用本公开所述方案,可提升数据处理结果的准确性等。
Description
技术领域
本公开涉及人工智能技术领域,特别涉及计算机视觉、深度学习以及图像处理等领域的数据处理及模型微调方法、装置、电子设备及存储介质。
背景技术
目前,在进行图像分类时,通常借助于采用模型预训练+模型微调模式得到的图像分类模型,模型预训练+模型微调模式即指先在一个超大规模数据集上进行预训练以得到预训练模型,之后再根据实际应用场景进行下游任务的模型微调,如通过微调得到所需的图像分类模型。
发明内容
本公开提供了数据处理及模型微调方法、装置、电子设备及存储介质。
一种数据处理方法,包括:
获取预定的下游任务对应的待处理数据;
根据所述下游任务对应的任务处理模型,对所述待处理数据进行处理,得到数据处理结果,其中,所述任务处理模型为根据所述下游任务对应的训练数据对预训练模型进行微调后得到的,所述微调的过程中,所述预训练模型中的目标参数保持不变,所述目标参数对应的残差变量发生更新,所述目标参数为所述预训练模型的模型参数中的至少一个,各目标参数分别具有对应的残差变量,微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
一种模型微调方法,包括:
获取预训练模型,将所述预训练模型的模型参数中的至少一个确定出为目标参数,并分别为各目标参数设置对应的残差变量;
获取预定的下游任务对应的训练数据,利用所述训练数据对所述预训练模型进行微调,得到所述下游任务对应的任务处理模型,其中,所述微调的过程中,所述目标参数保持不变,对所述目标参数对应的残差变量进行更新,并将微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
一种数据处理装置,包括:数据获取模块以及数据处理模块;
所述数据获取模块,用于获取预定的下游任务对应的待处理数据;
所述数据处理模块,用于根据所述下游任务对应的任务处理模型,对所述待处理数据进行处理,得到数据处理结果,其中,所述任务处理模型为根据所述下游任务对应的训练数据对预训练模型进行微调后得到的,所述微调的过程中,所述预训练模型中的目标参数保持不变,所述目标参数对应的残差变量发生更新,所述目标参数为所述预训练模型的模型参数中的至少一个,各目标参数分别具有对应的残差变量,微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
一种模型微调装置,包括:参数处理模块以及模型微调模块;
所述参数处理模块,用于获取预训练模型,将所述预训练模型的模型参数中的至少一个确定出为目标参数,并分别为各目标参数设置对应的残差变量;
所述模型微调模块,用于获取预定的下游任务对应的训练数据,利用所述训练数据对所述预训练模型进行微调,得到所述下游任务对应的任务处理模型,其中,所述微调的过程中,所述目标参数保持不变,对所述目标参数对应的残差变量进行更新,并将微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如以上所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开所述数据处理方法实施例的流程图;
图2为本公开所述模型微调方法实施例的流程图;
图3为本公开所述目标参数及对应的残差变量的示意图;
图4为本公开所述对ΔW进行矩阵低秩分解方式的示意图;
图5为本公开所述数据处理装置实施例500的组成结构示意图;
图6为本公开所述模型微调装置实施例600的组成结构示意图;
图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本公开所述数据处理方法实施例的流程图。如图1所示,包括以下具体实现方式。
在步骤101中,获取预定的下游任务对应的待处理数据。
在步骤102中,根据下游任务对应的任务处理模型,对待处理数据进行处理,得到数据处理结果,其中,任务处理模型为根据下游任务对应的训练数据对预训练模型进行微调后得到的,微调的过程中,预训练模型中的目标参数保持不变,目标参数对应的残差变量发生更新,目标参数为预训练模型的模型参数中的至少一个,各目标参数分别具有对应的残差变量,微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
传统的模型微调方式通常为在预训练模型基础上进行的模型参数全量微调,但这种方式容易使模型遗忘预训练阶段学习到的知识,进而影响模型的迁移效果,即影响微调后的模型性能,如会影响微调得到的图像分类模型的性能,进而影响图像分类结果的准确性等。
而采用上述方法实施例所述方案,可利用残差变量更新代替对原有的预训练模型参数的更新,从而能够有效保留预训练阶段学习到的知识,即减少对于预训练知识的破坏,使得预训练阶段学习到的丰富知识能够高效地迁移到下游任务中,进而提升了模型微调效果及微调后的模型性能,相应地,利用微调后的模型对待处理数据进行处理,可提升数据处理结果的准确性等。
优选地,所述下游任务包括图像分类任务,任一训练数据中分别包括:图像以及对应的图像分类结果,获取待处理数据包括:获取待分类图像,所述根据下游任务对应的任务处理模型,对待处理数据进行处理,得到数据处理结果包括:根据图像分类任务对应的图像分类模型,对待分类图像进行分类,得到图像分类结果。
也就是说,本公开所述方案可应用于图像分类场景(即图像分类任务),在获取到预训练模型后,可根据图像分类任务对应的训练数据,对预训练模型进行微调,从而得到图像分类模型。每条训练数据中可分别包括一张图像以及该图像的图像分类结果,比如,可以是人工标注的图像分类结果等。
相应地,在推理阶段,可获取待分类图像,并可将待分类图像作为图像分类模型的输入,从而得到输出的图像分类结果。
由于按照本公开所述方案得到的图像分类模型的性能得到了提升,相应地,利用其进行图像分类,可提升图像分类结果的准确性,而且,推理阶段无任何额外参数的增加,从而实现了零耗时增加以及零内存占用增加等。
可以看出,上述数据处理方法的实现需要依赖于预先训练得到的任务处理模型,以下即对该模型的获取方式进行说明。
图2为本公开所述模型微调方法实施例的流程图。如图2所示,包括以下具体实现方式。
在步骤201中,获取预训练模型,将预训练模型的模型参数中的至少一个确定出为目标参数,并分别为各目标参数设置对应的残差变量。
在步骤202中,获取预定的下游任务对应的训练数据,利用训练数据对预训练模型进行微调,得到下游任务对应的任务处理模型,其中,微调的过程中,目标参数保持不变,对目标参数对应的残差变量进行更新,并将微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
采用上述方法实施例所述方案,可利用残差变量更新代替对原有的预训练模型参数的更新,从而能够有效保留预训练阶段学习到的知识,即减少对于预训练知识的破坏,使得预训练阶段学习到的丰富知识能够高效地迁移到下游任务中,进而提升了模型微调效果及微调后的模型性能,相应地,利用微调后的模型对待处理数据进行处理,可提升数据处理结果的准确性等。
如何得到预训练模型不作限制,比如,可基于超大规模数据集进行预训练得到预训练模型,另外,预训练模型具体为何种模型也不作限制,可根据实际需要而定。
预训练模型中会包括多个模型参数,可将其中的至少一个模型参数确定出为目标参数,并可分别为各目标参数设置对应的残差变量。
优选地,可将预训练模型中的所有模型参数均确定为目标参数,并可分别为各目标参数设置对应的残差变量,另外,还可将各残差变量的初始值赋值为0。
具体将多少模型参数确定为目标参数可根据实际需要而定,通常来说,目标参数的数量越多,微调后得到的任务处理模型的性能越好,因此,优选地,可将预训练模型中的所有模型参数均确定为目标参数。
另外,各残差变量的初始值可分别赋值为0,即各残差变量在微调开始时初始化为0,具有0均值属性,从而可使得训练更加稳定等。
进一步地,针对预训练模型,可获取预定的下游任务对应的训练数据,并可利用获取到的训练数据对预训练模型进行微调,从而得到下游任务对应的任务处理模型。其中,微调过程中,目标参数可保持不变,仅对目标参数对应的残差变量进行更新。当然,如果未将预训练模型中的所有模型参数均作为目标参数,即若存在非目标参数,那么还可按照传统方式对非目标参数进行更新。另外,还可将微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
图3为本公开所述目标参数及对应的残差变量的示意图。如图3所示,假设某一目标参数为W,R表示实数,d表示维度,相比于传统方式在微调阶段直接对W进行更新,本公开所述方案中引入了一个残差变量/>并在微调阶段仅更新ΔW,当微调完成后,可计算W'=W+ΔW,从而得到微调后的目标参数W'。
假设预训练模型中共包括10个模型参数(仅为举例说明,实际可能远大于此),并假设将这10个模型参数均作为目标参数,从而得到目标参数1~目标参数10,那么任务处理模型中的模型参数即包括微调后的目标参数1~目标参数10,假设将预训练模型中的8个模型参数作为目标参数,将其余的2个模型参数作为非目标参数,那么任务处理模型中的模型参数即包括微调后的目标参数1~目标参数8、微调后的非目标参数9以及微调后的非目标参数10。
相比于预训练模型,微调后的任务处理模型的模型结构并无变化,且无任何额外参数的增加。
优选地,还可对残差变量进行矩阵低秩分解,得到第一分解结果以及第二分解结果,相应地,在微调过程中,可分别对第一分解结果以及第二分解结果进行更新。
仍以ΔW为例,图4为本公开所述对ΔW进行矩阵低秩分解方式的示意图。如图4所示,通过矩阵低秩分解,可得到第一分解结果U和第二分解结果V,ΔW=UV,其中,r<<d,r为超参数,具体取值可根据实际需要而定。
通过上述处理,将高维的残差变量分解成了两个低维子空间,从而可在低维子空间对变量进行优化,进而降低了模型优化成本,并加快了模型收敛速度,提升了模型微调效率,减少了资源占用,以及进一步减小了对预训练知识的破坏等。
另外,优选地,在微调完成后,还可根据微调后的第一分解结果以及微调后的第二分解结果生成微调后的残差变量,并可将微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
即可根据微调后的第一分解结果以及微调后的第二分解结果确定出微调后的残差变量,进而可根据微调后的残差变量以及原始的目标参数确定出微调后的目标参数。
优选地,所述下游任务包括:图像分类任务,任一训练数据中分别包括:图像以及对应的图像分类结果,所述得到下游任务对应的任务处理模型包括:得到图像分类任务对应的图像分类模型。
也就是说,本公开所述方案可应用于图像分类场景,在获取到预训练模型后,可根据图像分类任务对应的训练数据,对预训练模型进行微调,从而得到图像分类模型。每条训练数据中可分别包括一张图像以及该图像的图像分类结果,比如,可以是人工标注的图像分类结果等。
相应地,在推理阶段,可获取待分类图像,并可将待分类图像作为图像分类模型的输入,从而得到输出的图像分类结果。
由于按照本公开所述方案得到的图像分类模型的性能得到了提升,相应地,利用其进行图像分类,可提升图像分类结果的准确性。
需要说明的是,对于前述的各方法实施例,为了简单描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。另外,某个实施例中没有详述的部分,可以参见其它实施例中的相关说明。
总之,采用本公开方法实施例所述方案,可利用残差变量更新代替对原有的预训练模型参数的更新,从而能够有效保留预训练阶段学习到的知识,即减少对于预训练知识的破坏,使得预训练阶段学习到的丰富知识能够高效地迁移到下游任务中,进而提升了模型微调效果及微调后的模型性能,另外,可对残差变量进行矩阵低秩分解,从而可在低维子空间对变量进行优化,进而降低了模型优化成本,并加快了模型收敛速度,提升了模型微调效率,减少了资源占用,以及进一步减小了对预训练知识的破坏等,再有,利用微调后的模型对待处理数据进行处理,如对待分类图像进行图像分类,可提升图像分类结果的准确性,而且,推理阶段无任何额外参数的增加,并降低了模型后期维护和升级成本,能够实现模型的快速迭代更新等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图5为本公开所述数据处理装置实施例500的组成结构示意图。如图5所示,包括:数据获取模块501以及数据处理模块502。
数据获取模块501,用于获取预定的下游任务对应的待处理数据。
数据处理模块502,用于根据下游任务对应的任务处理模型,对待处理数据进行处理,得到数据处理结果,其中,任务处理模型为根据下游任务对应的训练数据对预训练模型进行微调后得到的,微调的过程中,预训练模型中的目标参数保持不变,目标参数对应的残差变量发生更新,目标参数为预训练模型的模型参数中的至少一个,各目标参数分别具有对应的残差变量,微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
采用上述装置实施例所述方案,可利用残差变量更新代替对原有的预训练模型参数的更新,从而能够有效保留预训练阶段学习到的知识,即减少对于预训练知识的破坏,使得预训练阶段学习到的丰富知识能够高效地迁移到下游任务中,进而提升了模型微调效果及微调后的模型性能,相应地,利用微调后的模型对待处理数据进行处理,可提升数据处理结果的准确性等。
优选地,所述下游任务包括图像分类任务,任一训练数据中分别包括:图像以及对应的图像分类结果,相应地,数据获取模块501获取待处理数据包括:获取待分类图像,数据处理模块502根据下游任务对应的任务处理模型,对待处理数据进行处理,得到数据处理结果包括:根据图像分类任务对应的图像分类模型,对待分类图像进行分类,得到图像分类结果。
图6为本公开所述模型微调装置实施例600的组成结构示意图。如图6所示,包括:参数处理模块601以及模型微调模块602。
参数处理模块601,用于获取预训练模型,将预训练模型的模型参数中的至少一个确定出为目标参数,并分别为各目标参数设置对应的残差变量。
模型微调模块602,用于获取预定的下游任务对应的训练数据,利用训练数据对预训练模型进行微调,得到下游任务对应的任务处理模型,其中,微调的过程中,目标参数保持不变,对目标参数对应的残差变量进行更新,并将微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
采用上述装置实施例所述方案,可利用残差变量更新代替对原有的预训练模型参数的更新,从而能够有效保留预训练阶段学习到的知识,即减少对于预训练知识的破坏,使得预训练阶段学习到的丰富知识能够高效地迁移到下游任务中,进而提升了模型微调效果及微调后的模型性能,相应地,利用微调后的模型对待处理数据进行处理,可提升数据处理结果的准确性等。
预训练模型中会包括多个模型参数,参数处理模块601可将其中的至少一个模型参数确定出为目标参数,并可分别为各目标参数设置对应的残差变量。
优选地,参数处理模块601可将预训练模型中的所有模型参数均确定为目标参数,并可分别为各目标参数设置对应的残差变量,另外,还可将各残差变量的初始值赋值为0。
进一步地,针对预训练模型,模型微调模块602可获取预定的下游任务对应的训练数据,并可利用获取到的训练数据对预训练模型进行微调,从而得到下游任务对应的任务处理模型。其中,微调过程中,目标参数可保持不变,仅对目标参数对应的残差变量进行更新。当然,如果未将预训练模型中的所有模型参数均作为目标参数,即若存在非目标参数,那么还可按照传统方式对非目标参数进行更新。另外,还可将微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
优选地,模型微调模块602还可对残差变量进行矩阵低秩分解,得到第一分解结果以及第二分解结果,相应地,在微调过程中,可分别对第一分解结果以及第二分解结果进行更新。
另外,优选地,在微调完成后,模型微调模块602还可根据微调后的第一分解结果以及微调后的第二分解结果生成微调后的残差变量,并可将微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
优选地,所述下游任务包括:图像分类任务,任一训练数据中分别包括:图像以及对应的图像分类结果,模型微调模块602得到下游任务对应的任务处理模型包括:得到图像分类任务对应的图像分类模型。
图5和图6所示装置实施例的具体工作流程可参照前述方法实施例中的相关说明,不再赘述。
总之,采用本公开装置实施例所述方案,可利用残差变量更新代替对原有的预训练模型参数的更新,从而能够有效保留预训练阶段学习到的知识,即减少对于预训练知识的破坏,使得预训练阶段学习到的丰富知识能够高效地迁移到下游任务中,进而提升了模型微调效果及微调后的模型性能,另外,可对残差变量进行矩阵低秩分解,从而可在低维子空间对变量进行优化,进而降低了模型优化成本,并加快了模型收敛速度,提升了模型微调效率,减少了资源占用,以及进一步减小了对预训练知识的破坏等,再有,利用微调后的模型对待处理数据进行处理,如对待分类图像进行图像分类,可提升图像分类结果的准确性,而且,推理阶段无任何额外参数的增加,并降低了模型后期维护和升级成本,能够实现模型的快速迭代更新等。
本公开所述方案可应用于人工智能领域,特别涉及计算机视觉、深度学习以及图像处理等领域。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术,人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术,人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
另外,本公开所述实施例中的待处理数据等并不是针对某一特定用户的,并不能反映出某一特定用户的个人信息。本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如本公开所述的方法。例如,在一些实施例中,本公开所述的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行本公开所述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开所述的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (17)
1.一种数据处理方法,包括:
获取预定的下游任务对应的待处理数据;
根据所述下游任务对应的任务处理模型,对所述待处理数据进行处理,得到数据处理结果,其中,所述任务处理模型为根据所述下游任务对应的训练数据对预训练模型进行微调后得到的,所述微调的过程中,所述预训练模型中的目标参数保持不变,所述目标参数对应的残差变量发生更新,所述目标参数为所述预训练模型的模型参数中的至少一个,各目标参数分别具有对应的残差变量,微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
2.根据权利要求1所述的方法,其中,
所述下游任务包括:图像分类任务;
任一训练数据中分别包括:图像以及对应的图像分类结果;
获取待处理数据包括:获取待分类图像;
所述根据所述下游任务对应的任务处理模型,对所述待处理数据进行处理,得到数据处理结果包括:根据所述图像分类任务对应的图像分类模型,对所述待分类图像进行分类,得到图像分类结果。
3.一种模型微调方法,包括:
获取预训练模型,将所述预训练模型的模型参数中的至少一个确定出为目标参数,并分别为各目标参数设置对应的残差变量;
获取预定的下游任务对应的训练数据,利用所述训练数据对所述预训练模型进行微调,得到所述下游任务对应的任务处理模型,其中,所述微调的过程中,所述目标参数保持不变,对所述目标参数对应的残差变量进行更新,并将微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
4.根据权利要求3所述的方法,其中,
所述将所述预训练模型的模型参数中的至少一个确定出为目标参数,并分别为各目标参数设置对应的残差变量包括:
将所述预训练模型中的所有模型参数均确定为所述目标参数,分别为各目标参数设置对应的残差变量,并将各残差变量的初始值赋值为0。
5.根据权利要求3所述的方法,其中,
所述对所述目标参数对应的残差变量进行更新包括:
对所述残差变量进行矩阵低秩分解,得到第一分解结果以及第二分解结果,分别对所述第一分解结果以及所述第二分解结果进行更新。
6.根据权利要求5所述的方法,其中,
所述将微调后的残差变量与对应的目标参数之和作为微调后的目标参数包括:
根据微调后的第一分解结果以及微调后的第二分解结果生成所述微调后的残差变量,将所述微调后的残差变量与对应的目标参数之和作为所述微调后的目标参数。
7.根据权利要求3~6中任一项所述的方法,其中,
所述下游任务包括:图像分类任务;
任一训练数据中分别包括:图像以及对应的图像分类结果;
所述得到所述下游任务对应的任务处理模型包括:得到所述图像分类任务对应的图像分类模型。
8.一种数据处理装置,包括:数据获取模块以及数据处理模块;
所述数据获取模块,用于获取预定的下游任务对应的待处理数据;
所述数据处理模块,用于根据所述下游任务对应的任务处理模型,对所述待处理数据进行处理,得到数据处理结果,其中,所述任务处理模型为根据所述下游任务对应的训练数据对预训练模型进行微调后得到的,所述微调的过程中,所述预训练模型中的目标参数保持不变,所述目标参数对应的残差变量发生更新,所述目标参数为所述预训练模型的模型参数中的至少一个,各目标参数分别具有对应的残差变量,微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
9.根据权利要求8所述的装置,其中,
所述下游任务包括:图像分类任务;
任一训练数据中分别包括:图像以及对应的图像分类结果;
所述数据获取模块获取待分类图像;
所述数据处理模块根据所述图像分类任务对应的图像分类模型,对所述待分类图像进行分类,得到图像分类结果。
10.一种模型微调装置,包括:参数处理模块以及模型微调模块;
所述参数处理模块,用于获取预训练模型,将所述预训练模型的模型参数中的至少一个确定出为目标参数,并分别为各目标参数设置对应的残差变量;
所述模型微调模块,用于获取预定的下游任务对应的训练数据,利用所述训练数据对所述预训练模型进行微调,得到所述下游任务对应的任务处理模型,其中,所述微调的过程中,所述目标参数保持不变,对所述目标参数对应的残差变量进行更新,并将微调后的残差变量与对应的目标参数之和作为微调后的目标参数。
11.根据权利要求10所述的装置,其中,
所述参数处理模块将所述预训练模型中的所有模型参数均确定为所述目标参数,分别为各目标参数设置对应的残差变量,并将各残差变量的初始值赋值为0。
12.根据权利要求10所述的装置,其中,
所述模型微调模块对所述残差变量进行矩阵低秩分解,得到第一分解结果以及第二分解结果,分别对所述第一分解结果以及所述第二分解结果进行更新。
13.根据权利要求12所述的装置,其中,
所述模型微调模块根据微调后的第一分解结果以及微调后的第二分解结果生成所述微调后的残差变量,将所述微调后的残差变量与对应的目标参数之和作为所述微调后的目标参数。
14.根据权利要求10~13中任一项所述的装置,其中,
所述下游任务包括:图像分类任务;
任一训练数据中分别包括:图像以及对应的图像分类结果;
所述任务处理模型包括:图像分类模型。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310363069.XA CN116580223A (zh) | 2023-04-06 | 2023-04-06 | 数据处理及模型微调方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310363069.XA CN116580223A (zh) | 2023-04-06 | 2023-04-06 | 数据处理及模型微调方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580223A true CN116580223A (zh) | 2023-08-11 |
Family
ID=87536702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310363069.XA Pending CN116580223A (zh) | 2023-04-06 | 2023-04-06 | 数据处理及模型微调方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580223A (zh) |
-
2023
- 2023-04-06 CN CN202310363069.XA patent/CN116580223A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114723966B (zh) | 多任务识别方法、训练方法、装置、电子设备及存储介质 | |
CN114202076B (zh) | 深度学习模型的训练方法、自然语言处理方法和装置 | |
CN113011155B (zh) | 用于文本匹配的方法、装置、设备和存储介质 | |
CN114494784A (zh) | 深度学习模型的训练方法、图像处理方法和对象识别方法 | |
CN114881223B (zh) | 深度学习模型的转换方法、装置、电子设备和存储介质 | |
CN113657483A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN113360711A (zh) | 视频理解任务的模型训练和执行方法、装置、设备及介质 | |
CN113902010A (zh) | 分类模型的训练方法和图像分类方法、装置、设备和介质 | |
CN114202026A (zh) | 多任务模型训练方法和装置、多任务处理方法和装置 | |
CN115170919B (zh) | 图像处理模型训练及图像处理方法、装置、设备和存储介质 | |
CN114926322B (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN115439916A (zh) | 面部识别方法、装置、设备及介质 | |
CN116580223A (zh) | 数据处理及模型微调方法、装置、电子设备及存储介质 | |
CN113408632A (zh) | 提高图像分类准确性的方法、装置、电子设备及存储介质 | |
CN114067415A (zh) | 回归模型的训练方法、对象评估方法、装置、设备和介质 | |
CN114707638A (zh) | 模型训练、对象识别方法及装置、设备、介质和产品 | |
CN114415997A (zh) | 显示参数设置方法、装置、电子设备及存储介质 | |
CN114119972A (zh) | 模型获取及对象处理方法、装置、电子设备及存储介质 | |
CN113887630A (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN113344213A (zh) | 知识蒸馏方法、装置、电子设备及计算机可读存储介质 | |
CN113361621A (zh) | 用于训练模型的方法和装置 | |
CN114494818B (zh) | 图像处理方法、模型训练方法、相关装置及电子设备 | |
CN116188875B (zh) | 图像分类方法、装置、电子设备、介质和产品 | |
CN115578583B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN113361575B (zh) | 模型训练方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |