CN114741389A - 模型参数调整方法、装置、电子设备及存储介质 - Google Patents
模型参数调整方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114741389A CN114741389A CN202210323933.9A CN202210323933A CN114741389A CN 114741389 A CN114741389 A CN 114741389A CN 202210323933 A CN202210323933 A CN 202210323933A CN 114741389 A CN114741389 A CN 114741389A
- Authority
- CN
- China
- Prior art keywords
- parameter
- target dynamic
- model
- determining
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Studio Devices (AREA)
Abstract
本申请提供一种模型参数调整方法、装置、电子设备及存储介质,该方法包括根据待训练模型的任务场景确定所述模型的第一参数类别;基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数;基于所述第一目标动态参数初始化所述模型,并记录初始化后的第一目标动态参数的存储位置信息;响应于确定任务场景发生变化,基于变化后的任务场景确定所述模型的第二参数类型;基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,并基于所述存储位置信息将第一目标动态参数替换为第二目标动态参数,从而通过调节动态参数实现使模型可以支持多个下游任务场景,进而提高了模型调节的效率。
Description
技术领域
本申请涉及模型调参技术领域,尤其涉及一种模型参数调整方法、装置、电子设备及存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
近年来,随着人工智能技术,特别是深度学习技术的快速发展,深度学习技术能够从大量的训练数据中自主学习数据标识,避免了繁琐的特征工程工作,还能显著的提升应用性能,并具有一定迁移学习能力。然而日益增长的模型规模也为下游场景的部署带来一定困难:当超大规模预训练模型训练完成后,需要在不同领域、不同类型的下游任务中进行应用,因此需要对预训练模型的参数加以微调。但是随着预训练模型参数规模的越来越大,直接对预训练大模型进行微调面临领域算力资源开销大等一系列挑战。
发明内容
有鉴于此,本申请的目的在于提出一种模型参数调整方法、装置、电子设备及存储介质。
基于上述目的,本申请提供了一种模型参数调整方法,包括:
基于待训练模型的任务场景确定所述模型待配置的第一参数类别;
基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数;
基于所述第一目标动态参数初始化所述模型,并记录初始化后的所述第一目标动态参数的存储位置信息;
响应于确定所述任务场景发生变化,基于变化后的所述任务场景确定所述模型待调整的第二参数类型;
基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,并基于所述存储位置信息将所述第一目标动态参数替换为所述第二目标动态参数。
在一些实施例中,在基于所述第一目标动态参数初始化所述模型之后;所述方法还包括:
获取初始化后的所述模型的多个静态参数;
基于所述第一参数类别从所述多个静态参数中确定所述模型的目标静态参数,以使所述目标静态参数参与所述模型的训练过程。
在一些实施例中,所述预设参数列表设置在内存中;在基于所述第一目标动态参数初始化所述模型之前,所述方法还包括:
将所述第一目标动态参数从所述预设参数列表中传输至目标显存中。
在一些实施例中,所述第一目标动态参数包括多个参数矩阵;将所述第一目标动态参数从所述预设参数列表中传输至目标显存中,具体包括:
对于多个参数矩阵中的每个参数矩阵,获取所述每个参数矩阵在第一维度的第一尺寸,以及在第二维度的第二尺寸;
将所述第一尺寸相同的参数矩阵沿第二维度拼接为合并参数矩阵,并将所述合并参数矩阵从所述预设参数列表中传输至目标显存中;
基于所述第二尺寸将传输至目标显存中的所述合并参数矩阵拆分成多个所述第一尺寸相同的参数矩阵。
在一些实施例中,将所述第一尺寸相同的参数矩阵沿第二维度拼接为合并参数矩阵之前,将所述第一目标动态参数从所述预设参数列表中传输至目标显存中,具体还包括:
确定所述第一尺寸相同的参数矩阵的第一数量大于所述第二尺寸相同的参数矩阵的第二数量。
在一些实施例中,所述预设参数列表包括第一预设列表和第二预设列表,所述第一预设列表设置在显存中,所述第二预设列表设置在内存中;在基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数之后,所述方法还包括:
确定所述第一预设列表中参与初始化的次数最少的第三目标动态参数;
响应于确定所述第一目标动态参数处于所述第二预设列表中,将所述第三目标动态参数与所述第一目标动态参数的保存位置进行替换。
在一些实施例中,在基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数之后,所述方法还包括:
响应于确定所述第二目标动态参数处于所述第二预设列表中,将所述第三目标动态参数与所述第一目标动态参数的保存位置进行替换。
基于同一发明构思,本申请示例性实施例还提供了一种模型参数调整装置,包括:
第一确定模块,基于待训练模型的任务场景确定所述模型的第一参数类别;
第二确定模块,基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数;
初始化模块,基于所述第一目标动态参数初始化所述模型,并记录初始化后的所述第一目标动态参数的存储位置信息;
第三确定模块,响应于确定所述任务场景发生变化,基于变化后的所述任务场景确定所述模型的第二参数类型;
参数替换模块,基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,并基于所述存储位置信息将所述第一目标动态参数替换为所述第二目标动态参数。
基于同一发明构思,本申请示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如上所述的模型参数调整方法。
基于同一发明构思,本申请示例性实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的模型参数调整方法。
从上面所述可以看出,本申请提供的模型参数调整方法、装置、电子设备及存储介质,根据待训练模型的任务场景确定所述模型待配置的第一参数类别;基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数;基于所述第一目标动态参数初始化所述模型,并记录初始化后的所述第一目标动态参数的存储位置信息;响应于确定所述任务场景发生变化,基于变化后的所述任务场景确定所述模型待调整的第二参数类型;基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,并基于所述存储位置信息将所述第一目标动态参数替换为所述第二目标动态参数,从而通过调节动态参数实现使模型可以支持多个下游任务场景,进而提高了模型调节的效率。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种模型参数调整方法的流程示意图;
图2为本申请实施例的一种拼接参数矩阵的示意图;
图3为本申请实施例的一种模型参数调整装置的结构示意图;
图4为本申请实施例的一种具体的电子设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
根据本申请的实施方式,提出了一种模型参数调整方法、装置、电子设备及存储介质。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
现有技术中,主要使用Pytorch框架或Tensorflow深度学习框架为基础,直接对源码中预设的Transformer模型进行修改,采用锁参数梯度的方式微调fine-tune(使用预训练时未使用的数据对模型进行二次训练的方法),得到微调模型后直接使用框架进行推断。因此通常来说一次基础预训练大模型推断仅能适配一种微调技术推断计算,即仅能同时支持一种下游子任务。通常的,深度学习的推断服务首先需要定义一个模型结构;然后使用训练好的模型参数初始化这个模型,为模型分配显存或者内存,形成计算图;准备就绪后即可开始计算推断。其中,在第一步中定义的模型结构和对模型的初始化在后续的计算过程中是不可变的,模型使用的参数均在初始化过程中被加载进入显存或者内存中,供后续计算使用。当下游子任务发生变化时,需要重新根据训练好的模型参数初始化模型,这就导致之前模型完成初始化的那些被加载进入显存或者内存中的参数需要全部被替换,但是这个数量通常非常巨大,这将非常吃算力资源,也导致那些相同的参数不能重复使用,造成算力资源浪费。
为了解决上述问题,本申请提供了一种模型参数调整方法,具体包括:
根据待训练模型的任务场景确定所述模型待配置的第一参数类别;基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数;基于所述第一目标动态参数初始化所述模型,并记录初始化后的所述第一目标动态参数的存储位置信息;响应于确定所述任务场景发生变化,基于变化后的所述任务场景确定所述模型待调整的第二参数类型;基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,并基于所述存储位置信息将所述第一目标动态参数替换为所述第二目标动态参数,从而通过调节动态参数实现使模型可以支持多个下游任务场景,进而提高了模型调节的效率。由于现有技术中在调整参数时是将全部参数都进行替换,即先替换完所有参数后再用替换后的参数进行初始化,所以在进行模型初始化时,将各个参数加载到显存或内存中后并不会记录各个参数的存储位置信息,而本申请只替换所有模型参数中的动态参数,因此事先将动态参数的存储位置信息记录,并通过该存储位置信息可以直接实现动态参数的替换,从而通过调整少量的动态参数来提高模型参数调节的效率的同时,将那些可以重复利用的静态参数保留下来,实现通过少量参数调节来使模型可以应用于多个下游任务。
在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施方式。
在一些具体的应用场景中,本申请的模型参数调整方法可以应用于任何涉及模型参数调节的系统和设备中。
在一些具体的应用场景中,本申请的模型参数调整方法可以直接应用在本地运行,也可以在云端服务器中运行。当在云端服务器运行时,将获取的待处理数据通过网络发送到云端服务器,由服务器对待处理数据通过本申请的模型参数调整方法进行处理,并将处理结果通过网络发送到本地。
下面结合具体的应用场景,来描述根据本申请示例性实施方式的模型参数调整方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
参考图1,本申请实施例提供了一种模型参数调整方法,包括以下步骤:
S101,基于待训练模型的任务场景确定所述模型待配置的第一参数类别。
具体实施时,由于模型在处理不同的任务时,一般需要配置的参数不同,所以在训练模型时,会先根据当前的任务场景选择模型需要配置的参数,这些参数决定了模型的结构,初始的权重等信息。可选的,模型的任务场景可以由用户根据需要直接进行输入。需要说明的是,通过该第一参数类别可以确定与当前的任务场景相对应的多个参数,这些参数被共同分为第一类参数,该对应的多个参数可以是动态参数,也可以是静态参数。
S102,基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数。
具体实施时,在确定了模型的第一参数类别后,就可以根据该第一参数类别从预设参数列表中找到第一目标动态参数。需要说明的是,预设参数列表中保存了多种参数类型对应的目标动态参数,每一种目标动态参数至少对应需要解决的一个任务场景。上述第一目标动态参数是与第一参数类别对应的动态参数,该动态参数指在模型训练时,那些发生变化的参数,例如权重参数,会在大量样本数据训练模型时不断的变化。
S103,基于所述第一目标动态参数初始化所述模型,并记录初始化后的所述第一目标动态参数的存储位置信息。
具体实施时,在确定第一目标动态参数后,根据该第一目标参数初始化待训练的模型,并将初始化后的第一目标参数的存储位置信息进保存。该初始化过程即将确定的第一目标动态参数加载到显存或者内存中后,以供后续计算使用。
在一些实施例中,在基于所述第一目标动态参数初始化所述模型之后;所述方法还包括:
获取初始化后的所述模型的多个静态参数;
基于所述第一参数类别从所述多个静态参数中确定所述模型的目标静态参数,以使所述目标静态参数参与所述模型的训练过程。
具体实施时,模型中有很多静态参数,这些静态参数决定了模型的结构特征,且这些静态参数在模型训练时不会发生变化。为了使本申请的模型参数调整方法不仅可以在所需的模型结构相同时,通过只调节模型的动态参数应用到不同的任务场景,而且可以在所需的模型结构不同时,通过静态参数的调整来完成模型结构的改变。在一些实施例中,本申请将不同模型结构可能用到的多个静态参数均在模型初始时加载到显存或内存中,然后根据第一参数类别确定模型的目标静态参数,并在后续模型训练过程中只让这些目标静态参数参与训练和运算,而其他的静态参数不会参与运算,相当于直接屏蔽除目标静态参数之外的静态参数。
在一些实施例中,所述预设参数列表设置在内存中;在基于所述第一目标动态参数初始化所述模型之前,所述方法还包括:
将所述第一目标动态参数从所述预设参数列表中传输至目标显存中。
具体实施时,一般为了提高运算效率,模型的初始化都是在GPU中运行的,这时需要将动态参数加载到GPU的目标显存中,而当预设参数列表设置在内存中为了提高参数加载速度,会先将第一目标动态参数从所述预设参数列表中传输至目标显存中。
在一些实施例中,所述第一目标动态参数包括多个参数矩阵;将所述第一目标动态参数从所述预设参数列表中传输至目标显存中,具体包括:
对于多个参数矩阵中的每个参数矩阵,获取所述每个参数矩阵在第一维度的第一尺寸,以及在第二维度的第二尺寸;
将所述第一尺寸相同的参数矩阵沿第二维度拼接为合并参数矩阵,并将所述合并参数矩阵从所述预设参数列表中传输至目标显存中;
基于所述第二尺寸将传输至目标显存中的所述合并参数矩阵拆分成多个所述第一尺寸相同的参数矩阵。
具体实施时,一般第一目标动态参数包括多个参数矩阵,正常情况下,将这些参数矩阵从内存中传输到GPU中需要逐个传输,为了提高数据传输的效率,在传输参数矩阵时,可以将多个参数矩阵拼接为一个合并参数矩阵,然后数据传输完成时,再将各个参数矩阵从合并参数矩阵中拆分出来。在操作时,先获取所述每个参数矩阵在第一维度的第一尺寸,以及在第二维度的第二尺寸,该第一维度和第二维度分别表示参数矩阵的行和列,可选的,第一维度和第二维度之间可以相互调换顺序,在此不做限定。在确定每个数据矩阵的第一维度和第二维度后,将所述第一尺寸相同的参数矩阵沿第二维度拼接为合并参数矩阵,并将所述合并参数矩阵从所述预设参数列表中传输至目标显存中,然后根据第二尺寸将传输至目标显存中的所述合并参数矩阵拆分成多个所述第一尺寸相同的参数矩阵。参考图2,其中,左边的两个参数矩阵的列数都为2,所以在第一维度的第一尺寸相同,因此可以沿着第二维度的将左边的两个参数矩阵拼接成中间的组合参数矩阵,然后将该中间的组合参数矩阵作为一个整体进行数据传输,在数据传输完成后,再将中间的组合参数矩阵拆分成右边的两个参数矩阵。
为了进一步提高数据传输的效率,在一些实施例中,所述第一目标动态参数包括多个参数矩阵,将所述第一目标动态参数从所述预设参数列表中传输至目标显存中,具体包括:
对于多个参数矩阵中的每个参数矩阵,获取所述每个参数矩阵在第一维度的第一尺寸,以及在第二维度的第二尺寸;
响应于确定所述第一尺寸相同的参数矩阵的第一数量小于所述第二尺寸相同的参数矩阵的第二数量,将所述第二尺寸相同的参数矩阵沿第一维度拼接为第一合并参数矩阵,并将所述第一合并参数矩阵从所述预设参数列表中传输至目标显存中;
基于所述第一尺寸将传输至目标显存中的所述第一合并参数矩阵拆分成多个所述第一尺寸相同的参数矩阵。
在一些实施例中,将所述第一目标动态参数从所述预设参数列表中传输至目标显存中,具体包括:
响应于确定所述第一尺寸相同的参数矩阵的第一数量大于所述第二尺寸相同的参数矩阵的第二数量,将所述第一尺寸相同的参数矩阵沿第二维度拼接为合并参数矩阵,并将所述第二合并参数矩阵从所述预设参数列表中传输至目标显存中;
基于所述第二尺寸将传输至目标显存中的所述第二合并参数矩阵拆分成多个所述第一尺寸相同的参数矩阵。
具体实施时,由于在传输数据时,合并矩阵的数量越少,传输的次数越少,进而传输效率越高,所以在将参数矩阵拼接为合并参数矩阵时,先判断第一尺寸相同的参数矩阵的第一数量和第二尺寸相同的参数矩阵的第二数量谁比价大,然后再根据判断结果拼接得到总数量尽可能少的合并参数矩阵。
S104,响应于确定所述任务场景发生变化,基于变化后的所述任务场景确定所述模型的第二参数类型。
具体实施时,在模型训练过程中,当任务场景发送变化后,相应的模型需要的参数也会发生变化。需要说明的是,该任务场景发生变化指的是当前收到的任务场景与上一次收到的任务场景不同。
S105,基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,并基于所述存储位置信息将所述第一目标动态参数替换为所述第二目标动态参数。
具体实施时,在确定了模型的第二参数类型后,先根据该第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,然后就可以根据之前记录的第一目标动态参数的存储位置信息将所述第一目标动态参数替换为所述第二目标动态参数,从而实现不改变其他参数的情况下,完成动态参数的替换。
在一些实施例中,所述预设参数列表包括第一预设列表和第二预设列表,所述第一预设列表设置在GPU中,所述第二预设列表设置在内存中;在基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数之后,所述方法还包括:
确定所述第一预设列表中参与初始化的次数最少的第三目标动态参数;
响应于确定所述第一目标动态参数处于所述第二预设列表中,将所述第三目标动态参数与所述第一目标动态参数的保存位置进行替换。
具体实施时,一般情况下,为了提高模型运行效率,模型的初始化都是在GPU中运行,所以若预设列表设置在GPU的显存中会增加参数获取的速度,但是GPU显存一般容量不会太大,因此保存在GPU的动态参数的数量是有限的,为了减少目标动态参数从内存传输到GPU的次数,在GPU中设置的第二预设列表中的动态参数最好是使用频率最高的动态参数,当需要为当前任务场景重新腾出一个动态参数的位置时,优选的,将参与初始化的次数最少的第三目标动态参数作为替换对象。
在一些实施例中,在基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数之后,所述方法还包括:
响应于确定所述第二目标动态参数处于所述第二预设列表中,将所述第三目标动态参数与所述第一目标动态参数的保存位置进行替换。
本申请提供的模型参数调整方法,根据待训练模型的任务场景确定所述模型的第一参数类别;基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数;基于所述第一目标动态参数初始化所述模型,并记录初始化后的所述第一目标动态参数的存储位置信息;响应于确定所述任务场景发生变化,基于变化后的所述任务场景确定所述模型的第二参数类型;基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,并基于所述存储位置信息将所述第一目标动态参数替换为所述第二目标动态参数,从而通过调节动态参数实现使模型可以支持多个下游任务场景,进而提高了模型调节的效率。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种模型参数调整装置。
参考图3,所述模型参数调整装置,包括:
第一确定模块201,基于待训练模型的任务场景确定所述模型的第一参数类别;
第二确定模块202,基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数;
初始化模块203,基于所述第一目标动态参数初始化所述模型,并记录初始化后的所述第一目标动态参数的存储位置信息;
第三确定模块204,响应于确定所述任务场景发生变化,基于变化后的所述任务场景确定所述模型的第二参数类型;
参数替换模块205,基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,并基于所述存储位置信息将所述第一目标动态参数替换为所述第二目标动态参数。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的模型参数调整方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的模型参数调整方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的模型参数调整方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的模型参数调整方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的模型参数调整方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所在领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种模型参数调整方法,其特征在于,包括:
基于待训练模型的任务场景确定所述模型待配置的第一参数类别;
基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数;
基于所述第一目标动态参数初始化所述模型,并记录初始化后的所述第一目标动态参数的存储位置信息;
响应于确定所述任务场景发生变化,基于变化后的所述任务场景确定所述模型待调整的第二参数类型;
基于所述第二参数类型从所述预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,并基于所述存储位置信息将所述第一目标动态参数替换为所述第二目标动态参数。
2.根据权利要求1所述的方法,其特征在于,在基于所述第一目标动态参数初始化所述模型之后,所述方法还包括:
获取初始化后的所述模型的多个静态参数;
基于所述第一参数类别从所述多个静态参数中确定所述模型的目标静态参数,以使所述目标静态参数参与所述模型的训练过程。
3.根据权利要求1所述的方法,其特征在于,所述预设参数列表设置在内存中;在基于所述第一目标动态参数初始化所述模型之前,所述方法还包括:
将所述第一目标动态参数从所述预设参数列表中传输至目标显存中。
4.根据权利要求3所述的方法,其特征在于,所述第一目标动态参数包括多个参数矩阵;将所述第一目标动态参数从所述预设参数列表中传输至目标显存中,具体包括:
对于多个参数矩阵中的每个参数矩阵,获取所述每个参数矩阵在第一维度的第一尺寸,以及在第二维度的第二尺寸;
将所述第一尺寸相同的参数矩阵沿第二维度拼接为合并参数矩阵,并将所述合并参数矩阵从所述预设参数列表中传输至目标显存中;
基于所述第二尺寸将传输至目标显存中的所述合并参数矩阵拆分成多个所述第一尺寸相同的参数矩阵。
5.根据权利要求4所述的方法,其特征在于,将所述第一尺寸相同的参数矩阵沿第二维度拼接为合并参数矩阵之前,将所述第一目标动态参数从所述预设参数列表中传输至目标显存中,具体还包括:
确定所述第一尺寸相同的参数矩阵的第一数量大于所述第二尺寸相同的参数矩阵的第二数量。
6.根据权利要求1所述的方法,其特征在于,所述预设参数列表包括第一预设列表和第二预设列表,所述第一预设列表设置在显存中,所述第二预设列表设置在内存中;在基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数之后,所述方法还包括:
确定所述第一预设列表中参与初始化的次数最少的第三目标动态参数;
响应于确定所述第一目标动态参数处于所述第二预设列表中,将所述第三目标动态参数与所述第一目标动态参数的保存位置进行替换。
7.根据权利要求6所述的方法,其特征在于,在基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数之后,所述方法还包括:
响应于确定所述第二目标动态参数处于所述第二预设列表中,将所述第三目标动态参数与所述第一目标动态参数的保存位置进行替换。
8.一种模型参数调整装置,其特征在于,包括:
第一确定模块,基于待训练模型的任务场景确定所述模型待配置的第一参数类别;
第二确定模块,基于所述第一参数类别从预设参数列表中确定与所述第一参数类别对应的第一目标动态参数;
初始化模块,基于所述第一目标动态参数初始化所述模型,并记录初始化后的所述第一目标动态参数的存储位置信息;
第三确定模块,响应于确定所述任务场景发生变化,基于变化后的所述任务场景确定所述模型待调整的第二参数类型;
参数替换模块,基于所述第二参数类型从预设参数列表中确定与所述第二参数类型对应的第二目标动态参数,并基于所述存储位置信息将所述第一目标动态参数替换为所述第二目标动态参数。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7中任意一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行根据权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210323933.9A CN114741389A (zh) | 2022-03-29 | 2022-03-29 | 模型参数调整方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210323933.9A CN114741389A (zh) | 2022-03-29 | 2022-03-29 | 模型参数调整方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114741389A true CN114741389A (zh) | 2022-07-12 |
Family
ID=82280496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210323933.9A Pending CN114741389A (zh) | 2022-03-29 | 2022-03-29 | 模型参数调整方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114741389A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350354A (zh) * | 2023-09-21 | 2024-01-05 | 摩尔线程智能科技(北京)有限责任公司 | 大模型的训练方法、装置、电子设备和存储介质 |
CN117743973A (zh) * | 2024-02-19 | 2024-03-22 | 北京搜狐新媒体信息技术有限公司 | 一种参数处理方法、装置、设备及存储介质 |
CN117743973B (zh) * | 2024-02-19 | 2024-05-28 | 北京搜狐新媒体信息技术有限公司 | 一种参数处理方法、装置、设备及存储介质 |
-
2022
- 2022-03-29 CN CN202210323933.9A patent/CN114741389A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350354A (zh) * | 2023-09-21 | 2024-01-05 | 摩尔线程智能科技(北京)有限责任公司 | 大模型的训练方法、装置、电子设备和存储介质 |
CN117743973A (zh) * | 2024-02-19 | 2024-03-22 | 北京搜狐新媒体信息技术有限公司 | 一种参数处理方法、装置、设备及存储介质 |
CN117743973B (zh) * | 2024-02-19 | 2024-05-28 | 北京搜狐新媒体信息技术有限公司 | 一种参数处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210264291A1 (en) | Model training method and apparatus based on gradient boosting decision tree | |
KR102141324B1 (ko) | 콘볼루션 뉴럴 네트워크의 고속 계산 | |
US20170270035A1 (en) | Method, device, and computer program product for testing code | |
US11514296B2 (en) | Output method and apparatus for multiple neural network, server and computer readable storage medium | |
CN109145981B (zh) | 深度学习自动化模型训练方法及设备 | |
KR102585470B1 (ko) | 정보 처리장치, 정보 처리방법, 비일시적인 컴퓨터 판독가능한 기억매체 | |
CN114528924B (zh) | 一种图像分类模型的推理方法、装置、设备及介质 | |
CN114741389A (zh) | 模型参数调整方法、装置、电子设备及存储介质 | |
CN114841322A (zh) | 神经网络计算图的处理方法及处理装置 | |
US20220012856A1 (en) | Processing apparatus | |
CN111738424B (zh) | 神经网络处理方法、装置、电子设备及存储介质 | |
CN110349076B (zh) | 数据的处理方法及装置 | |
CN110378479B (zh) | 基于深度学习的图片输入方法、装置及终端设备 | |
CN112333294A (zh) | 日志归并方法、装置、介质和设备 | |
CN111798263A (zh) | 一种交易趋势的预测方法和装置 | |
CN115797267A (zh) | 图像质量评估方法、系统、电子设备和存储介质 | |
CN113157987A (zh) | 用于机器学习算法的数据预处理方法及相关设备 | |
CN111461328B (zh) | 一种神经网络的训练方法 | |
US9483241B2 (en) | Method ranking based on code invocation | |
CN113642638A (zh) | 容量调整方法、模型的训练方法、装置、设备、存储介质 | |
CN113298083A (zh) | 一种数据处理方法及装置 | |
CN112585573A (zh) | 编译控制方法、编译控制装置和存储介质 | |
CN109901990B (zh) | 一种业务系统的测试方法、装置及设备 | |
CN113994369A (zh) | 学习设备、图像处理设备、参数生成设备、学习方法和图像处理方法 | |
CN111324523B (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |