CN116910566B - 一种目标识别模型训练方法和装置 - Google Patents
一种目标识别模型训练方法和装置 Download PDFInfo
- Publication number
- CN116910566B CN116910566B CN202311168809.0A CN202311168809A CN116910566B CN 116910566 B CN116910566 B CN 116910566B CN 202311168809 A CN202311168809 A CN 202311168809A CN 116910566 B CN116910566 B CN 116910566B
- Authority
- CN
- China
- Prior art keywords
- target
- linear layer
- parameter matrix
- parameters
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 207
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims description 164
- 238000004590 computer program Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 6
- 238000005094 computer simulation Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及计算机模型技术领域,提供了一种目标识别模型训练方法、装置、电子设备及存储介质。该方法通过在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理,根据调参完成的下游任务调整参数和原始训练参数得到目标线性层,并基于目标线性层得到训练完成的目标识别模型,实现了对线性层中下游任务调整参数进行训练,在训练完成后,使得得到的目标线性层能够支持下游任务,避免了直接对线性层中的所有参数进行训练,导致重复训练原始参数,且使得线性层训练量大,所需训练资源多的问题,进而降低了目标识别模型的训练量,节约了系统资源。
Description
技术领域
本申请涉及计算机模型技术领域,尤其涉及一种目标识别模型训练方法和装置。
背景技术
随着社会的发展,目标识别应用在越来越多的场景中;目标识别采用目标识别模型实现,目标识别模型通常采用通用的大数据集对目标识别模型进行初步训练,在初步训练完成后,在不同的下游任务中,对初步训练完成的目标识别模型进行模型微调,以达到在实际任务中的最优目标;然而目前相关技术中,在不同的下游训练任务中,通常是对直接在初步训练完成的目标识别模型上进行调整,导致需要更新目标识别模型上的所有参数,导致在下游训练任务中,目标识别模型所需训练量大,所需训练资源多。
发明内容
有鉴于此,本申请实施例提供了一种目标识别模型训练方法和装置,以解决现有技术中,下游训练任务中,需要更新目标识别模型上的所有参数,导致目标识别模型所需训练量大,所需训练资源多的问题。
本申请实施例的第一方面,提供了一种目标识别模型训练方法,该目标识别模型包括自注意力层和全连接层,每个自注意力层和每个全连接层均包含至少一个线性层,该方法包括:确定线性层对应的原始训练参数,原始训练参数是基于原始训练数据集对线性层进行目标识别训练所得到的;在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理;根据调参完成的下游任务调整参数和原始训练参数得到目标线性层,并基于目标线性层得到训练完成的目标识别模型,目标识别模型用于在下游任务中进行目标识别。
本申请实施例的第二方面,提供了一种目标识别模型训练装置,该目标识别模型包括自注意力层和全连接层,每个自注意力层和每个全连接层均包含至少一个线性层,该装置包括:确定模块,用于确定线性层对应的原始训练参数,原始训练参数是基于原始训练模型对线性层进行目标识别训练所得到的;调参模块,用于在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理;配置模块,用于根据调参完成的下游任务调整参数和原始训练参数得到目标线性层,并基于目标线性层得到训练完成的目标识别模型,目标识别模型用于在下游任务中进行目标识别。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例中通过在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理,根据调参完成的下游任务调整参数和原始训练参数得到目标线性层,并基于目标线性层得到训练完成的目标识别模型,实现了对线性层中下游任务调整参数进行训练,在训练完成后,使得得到的目标线性层能够支持下游任务,避免了直接对线性层中的所有参数进行训练,导致重复训练原始参数,且使得线性层训练量大,所需训练资源多的问题,进而降低了目标识别模型的训练量,节约了系统资源。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例的应用场景的场景示意图;
图2是申请实施例提供的一种目标识别模型训练方法的流程示意图;
图3是本申请实施例提供的还一种目标识别模型训练方法的流程示意图;
图4是本申请实施例提供的另一种目标识别模型训练方法的流程示意图;
图5是本申请实施例提供的再一种目标识别模型训练方法的流程示意图;
图6是本申请实施例提供的又一种目标识别模型训练方法的流程示意图;
图7是本申请实施例提供的还一种可选的目标识别模型训练方法的流程示意图;
图8是本申请实施例提供的另一种可选的目标识别模型训练方法的流程示意图;
图9是本申请实施例提供的一种目标识别模型训练装置的结构示意图;
图10是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面将结合附图详细说明根据本申请实施例的一种目标识别模型训练方法和装置。
图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。
终端设备1、2和3可以是硬件,也可以是软件。当终端设备1、2和3为硬件时,其可以是具有显示屏且支持与服务器4通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备1、2和3为软件时,其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,终端设备1、2和3上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器4可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器4可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本申请实施例对此不作限制。
需要说明的是,服务器4可以是硬件,也可以是软件。当服务器4为硬件时,其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时,其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块,也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块,本申请实施例对此不作限制。
网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本申请实施例对此不作限制。
用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接,以接收或发送信息等。具体地,在用户将收集到的兴趣点的数据导入到服务器4之后,服务器4获取待处理兴趣点的第一数据,该第一数据包括待处理兴趣点的第一经纬度和第一分类,并根据第一经纬度和第一分类,对待处理兴趣点进行冲突校验;进一步地,在确定冲突的情况下,服务器4对待处理兴趣点进行冲突处理,以避免数据库中存在大量的重复数据和不可用数据。
需要说明的是,终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本申请实施例对此不作限制。
下面将结合附图详细说明根据本申请实施例的一种目标识别模型训练方法和装置。
图2是本申请实施例提供的一种目标识别模型训练方法的流程示意图,如图2所示,该目标识别模型训练方法包括:
S201、确定线性层对应的原始训练参数,原始训练参数是基于原始训练数据集对线性层进行目标识别训练所得到的;
S202、在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理;
S203、根据调参完成的下游任务调整参数和原始训练参数得到目标线性层,并基于目标线性层得到训练完成的目标识别模型,目标识别模型用于在下游任务中进行目标识别。
其中,上述目标识别模型包括自注意力层和全连接层,每个自注意力层和每个全连接层均包含至少一个线性层,例如,目标识别模型包含自注意力层和全连接层,该自注意力层包含:查询(query)映射线性层、键(key)映射线性层、值(value)映射线性层、输出映射线性层;该全连接层包含两个连续的线性层;在一些示例中,自注意力层和全连接层中的至少一个线性层通过上述目标识别模型训练进行目标识别训练;在一些示例中,自注意力层和全连接层中的所有线性层通过上述目标识别模型训练进行目标识别训练。
其中,确定线性层对应的原始训练参数,原始训练参数是基于原始训练数据集对线性层进行目标识别训练所得到的,能够理解的是,原始训练参数能够将输入特征向量映射为输出特征向量,具体的,以原始训练参数为,线性层的输入特征向量为x,线性层的输出特征向量为y为例,则线性层的输出特征向量y=/>x。
承接上例,在一些示例中,该原始训练参数是原始训练数据集对当前目标识别模型的线性层训练得到的;在一些示例中,该原始训练参数还可以是原始训练数据集对其他目标识别模型的线性层训练后得到的,当前目标识别模型直接获取其他目标识别模型的线性层的数据对应的原始训练参数即可,实现了一个目标识别模型训练,多个目标识别模型获取原始训练参数,避免了存在多个下游任务时,需要通过原始训练参数对每个目标识别模型的线性层进行训练,导致训练量大的问题。
在一些示例中,通过在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理,进而实现对下游任务调整参数单独的训练;具体的,设线性层的下游任务调整参数为,原始训练参数为/>,线性层的输入特征向量为x,线性层的输出特征向量为y,则线性层的输出特征向量为/>,然后在线性层中固定原始训练参数/>,根据下游任务训练集对线性层中的下游任务调整参数进行调参处理,使得/>根据下游任务的变化而迭代,线性层逐渐向下游任务的损失方向优化,达到/>迭代完成后,线性层能够用于下游任务中,同时,由于原始训练参数/>不变,进而减少了线性层的训练量,达到线性层向下游任务的损失方向优化的同时,减少线性层的训练量的效果。
本一些示例中,根据调参完成的下游任务调整参数和原始训练参数得到目标线性层,则目标线性层中包含了调参完成的下游任务调整参数和原始训练参数,设调参完成的下游任务调整参数为,原始训练参数为/>,则目标线性层中的输出为/>,并基于目标线性层得到训练完成的目标识别模型,使得目标识别模型能够在下游任务中进行目标识别。
根据本申请实施例提供的技术方案,通过在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理,根据调参完成的下游任务调整参数和原始训练参数得到目标线性层,并基于目标线性层得到训练完成的目标识别模型,实现了对线性层中下游任务调整参数进行训练,在训练完成后,使得得到的目标线性层能够支持下游任务,避免了直接对线性层中的所有参数进行训练,导致重复训练原始参数,且使得线性层训练量大,所需训练资源多的问题,进而降低了目标识别模型的训练量,节约了系统资源。
在一些实施例中,下游任务调整参数由第一可训练参数矩阵和第二可训练参数矩阵构成;如图3所示,在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理之前,方法还包括:
S301、确定线性层的输入特征向量长度和输出特征向量长度;
S302、根据输入特征向量长度和输出特征向量长度确定第一可训练参数矩阵的目标秩,根据输入特征向量长度和输出特征向量长度确定第二可训练参数矩阵的目标秩;
S303、根据第一可训练参数矩阵的目标秩和输入特征向量长度,初始化第一可训练参数矩阵;
S304、根据第二可训练参数矩阵的目标秩和输出特征向量长度,初始化第二可训练参数矩阵。
具体的,确定线性层的输入特征向量长度和输出特征向量长度,设输入特征向量,则其中d为输入特征向量长度,R为实数集;设输出特征向量/>,则k为输出特征向量长度,R为实数集。
其中,上述目标秩为矩阵的最高秩,也即,根据输入特征向量长度和输出特征向量长度确定第一可训练参数矩阵的最高秩,然后根据输入特征向量长度和输出特征向量长度确定第二可训练参数矩阵的最高秩;在一些示例中,第一可训练参数矩阵的目标秩和第二可训练参数矩阵的目标秩相同。
在一些示例中,本示例根据第一可训练参数矩阵的目标秩和输入特征向量长度,初始化第一可训练参数矩阵;根据第二可训练参数矩阵的目标秩和输出特征向量长度,初始化第二可训练参数矩阵;具体的,以目标秩为最高秩,且第一可训练参数矩阵的目标秩和第二可训练参数矩阵的最高秩相同均为r,且d为输入特征向量长度,则k为输出特征向量长度为例,则本示例根据r与d初始化第一可训练参数矩阵,根据k与r初始化第二可训练参数矩阵。
能够理解的是,一些示例中,下游任务调整参数为低秩矩阵,本示例通过对进行低秩矩阵分解,将下游任务调整参数/>分解为第一可训练参数矩阵和第二可训练参数矩阵,进而实现约束下游任务调整参数/>的更新方式;具体的,设第一可训练参数矩阵为低秩序矩阵A,第二可训练参数矩阵为低秩序矩阵B,则下游任务调整参数/>=A×B;
能够理解的是,上述步骤S303和步骤S304并没有一定的先后顺序之分,上述步骤S303和步骤S304可以任一先执行,任一后执行;上述步骤S303和步骤S304也可以同时执行。
根据本申请实施例提供的技术方案,通过将下游任务调整参数分解为第一可训练参数矩阵和第二可训练参数矩阵,并通过线性层的输入特征向量长度和输出特征向量长度分别确定第一可训练参数矩阵和第二可训练参数矩阵的目标秩,最后在基于第一可训练参数矩阵的目标秩和输入特征向量长度,初始化第一可训练参数矩阵,基于第二可训练参数矩阵的目标秩和输出特征向量长度,初始化第二可训练参数矩阵,实现对第一可训练参数矩阵和第二可训练参数矩阵进行训练即可达到训练下游任务调整参数的效果,降低了下游任务调整参数的训练量,进一步的降低了线性层的训练量,节约了系统资源。
在一些实施例中,如图4所示,根据输入特征向量长度和输出特征向量长度确定第一可训练参数矩阵,包括:
S401、将输入特征向量长度和输出特征向量长度进行比较,并将输入特征向量长度和输出特征向量长度中的低值作为目标特征向量长度;
S402、基于加权参数对目标特征向量长度进行加权处理,得到第一可训练参数矩阵的目标秩。
具体的,设d为输入特征向量长度,设k为输出特征向量长度,将d和k进行比较,并将d和k中的低值作为目标特征向量长度,也即目标特征向量长度,例如,若d<k,则将d作为目标特征向量长度;反之若d>k,则将k作为目标特征向量长度。
在确定目标特征向量长度后,基于加权参数对目标特征向量长度进行加权处理,得到第一可训练参数矩阵的目标秩,其中,上述加权参数为相关人员根据实际需求所确定的,能够理解的是,上述加权参数的值不高于1,例如,上述加权参数为1/32,1/64;其中,以加权参数为1/32,d为目标特征向量长度为例,则第一可训练参数矩阵的目标秩等于d/32。
在一些示例中,根据输入特征向量长度和输出特征向量长度确定第二可训练参数矩阵,包括:将输入特征向量长度和输出特征向量长度进行比较,并将输入特征向量长度和输出特征向量长度中的低值作为目标特征向量长度;基于加权参数对目标特征向量长度进行加权处理,得到第二可训练参数矩阵的目标秩。获取第二可训练参数矩阵的目标秩的步骤与上述获取第一可训练参数矩阵的目标秩的步骤相同,在此不在赘述;
其中,以第一可训练参数矩阵的目标秩和第二可训练参数矩阵的目标秩相同为例,将第一可训练参数矩阵的目标秩和第二可训练参数矩阵的目标秩记为r,设d为输入特征向量长度,设k为输出特征向量长度,则r。
根据本申请实施例提供的技术方案,通过将输入特征向量长度和输出特征向量长度进行比较,并将输入特征向量长度和输出特征向量长度中的低值作为目标特征向量长度;基于加权参数对目标特征向量长度进行加权处理,得到第一可训练参数矩阵的目标秩,实现了基于线性层的特征向量长度和输出特征向量长度来限定第一可训练参数矩阵的目标秩,避免了第一可训练参数的目标秩过大,导致下游任务调整参数的训练量增加的问题,进而减少了下游任务调整参数的训练量,节约了系统资源。
在一些实施例中,如图5所示,根据第一可训练参数矩阵的目标秩和输入特征向量长度初始化第一可训练参数矩阵,包括:
S501、将输入特征向量长度作为第一可训练参数矩阵的行数,将第一可训练参数矩阵的目标秩作为第一可训练参数矩阵的列数;
S502、根据确定的行数和列数构建第一可训练参数矩阵,并将第一可训练参数矩阵中的每个元素初始化为零。
具体的,以线性层的输入特征向量长度为d,目标秩为r为例,将d作为第一可训练参数矩阵的行数,将r作为第一可训练参数矩阵的列数,则确定了第一可训练参数矩阵包含d个元素行,每一元素行中具有r个元素,实现构建第一可训练参数矩阵。
承接上例,若确定了第一可训练参数矩阵包含的元素,则对第一可训练参数矩阵中每一个元素进行赋值,在本实施例中,将第一可训练参数矩阵中的每个元素赋值为零,实现对第一可训练参数矩阵中每一个元素的初始化。
根据上述记载可知,设线性层的输出特征向量为,输入特征向量为x,下游任务调整参数,原始训练参数为/>,在为线性层增加下游任务调整参数后,则线性层的输出为线性层的输出特征向量/>,且下游任务调整参数/>可以由第一可训练参数矩阵A和第二可训练参数矩阵B构成,也即/>,则线性层的输出特征向量/>,在将第一矩阵可训练参数矩阵中的元素初始化为0,则在根据下游任务训练集对线性层中的下游任务调整参数进行调参处理的初始阶段时,则/>,进而使得增加了下游任务调整参数线性层的输出与为增加下游任务调整参数线性层的输出一致,从而避免引入额外的误差;实现了减少了参数的数量,从而节省了显存和存储空间,提高了模型微调的效率。
根据本申请实施例提供的技术方案,通过将输入特征向量长度作为第一可训练参数矩阵的行数,将第一可训练参数矩阵的目标秩作为第一可训练参数矩阵的列数;根据确定的行数和列数构建第一可训练参数矩阵,并将第一可训练参数矩阵中的每个元素初始化为零,进而使得增加了下游任务调整参数线性层的输出与为增加下游任务调整参数线性层的输出一致,从而避免引入额外的误差。实现了减少了参数的数量,从而节省了显存和存储空间,提高了模型微调的效率。
能够理解的是,在一些示例中,还可以采用其他初始化第一可训练参数矩阵,例如,在将输入特征向量长度作为第一可训练参数矩阵的行数,将第一可训练参数矩阵的目标秩作为第一可训练参数矩阵的列数,实现构建第一可训练参数矩阵后,基于正太分布采样值、随机初始化、Xavier初始化、He初始化等方法对第一可训练参数矩阵中的每个元素进行赋值。
在一些示例中,如图6所示,根据第二可训练参数矩阵的目标秩和输出特征向量长度,初始化第二可训练参数矩阵,包括:
S601、将第二可训练参数矩阵的目标秩作为第二可训练参数矩阵的行数,将输出特征向量长度作为第二可训练参数矩阵的列数;
S602、根据确定的行数和列数构建第二可训练参数矩阵,并根据标准正太分布的采样值对第二可训练参数矩阵中的每个元素进行赋值。
具体的,以线性层的输出特征向量长度为k,目标秩为r为例,将r作为第二可训练参数矩阵的行数,将k作为第二可训练参数矩阵的列数,则确定了第二可训练参数矩阵包含r个元素行,每一元素行中具有k个元素,实现构建第二可训练参数矩阵。
承接上例,若确定了第二可训练参数矩阵包含的元素,则对第二可训练参数矩阵中每一个元素进行赋值,在本实施例中,根据标准正太分布的采样值对第二可训练参数矩阵中每一个元素赋予一个随机的数值,使得第二可训练参数矩阵中的每一个元素均服从平均值为0,方差为1的正态分布,进而避免第二可训练参数矩阵中元素都为0或者相同的值,从而增加了第二可训练参数矩阵的多样性和灵活性,进而提升了线性层的多样性和灵活性。
能够理解的是,以线性层的输入特征向量长度为d,输出特征向量长度为k,目标秩为d/32为例,线性层在下游任务上微调时,固定原始训练参数不动,只训练第一可训练参数矩阵/>和第二可训练参数/>。若直接训练原始训练参数/>,则所需训练量为/>, 通过训练可训练参数矩阵/>和第二可训练参数/>,则所需训练量为/>,设d=k,则需训练参数量减小16倍。
能够理解的是,一些示例中,若小于/>,则直接对原始训练参数训练即可,而不需要在线性层中设置下游任务调整参数,因此,在一些示例中,在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理之前,方法还包括:确定下游任务中下游任务调整参数对应的训练量,若下游任务调整参数对应的训练量高于下游任务中直接训练原始训练参数,则停止在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理,直接根据下游任务训练线性层中的原始训练参数;反之若下游任务调整参数对应的训练量低于下游任务中直接训练原始训练参数,则执行步骤“在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理”。
根据本申请实施例提供的技术方案,将第二可训练参数矩阵的目标秩作为第二可训练参数矩阵的行数,将输出特征向量长度作为第二可训练参数矩阵的列数;根据确定的行数和列数构建第二可训练参数矩阵,并根据标准正太分布(均值为 0,方差为 1)的采样值对第二可训练参数矩阵中的每个元素进行赋值,使得第二可训练参数矩阵中的每一个元素均服从平均值为0,方差为1的正态分布,进而避免第二可训练参数矩阵中元素都为0或者相同的值,从而增加了第二可训练参数矩阵的多样性和灵活性,达到增加下游任务调整参数的多样性和灵活性的效果,进而提升了线性层的多样性和灵活性。
能够理解的是,在一些示例中,还可以采用其他初始化第二可训练参数矩阵,例如,在将第二可训练参数矩阵的目标秩作为第二可训练参数矩阵的行数,将输出特征向量长度作为第二可训练参数矩阵的列数,实现构建第二可训练参数矩阵后,基于赋零初始化、随机初始化、Xavier初始化、He初始化等方法对第二可训练参数矩阵中的每个元素进行赋值。
在一些示例中,如图7所示,若下游任务更新,则根据调参完成的下游任务调整参数和原始训练参数得到目标线性层之后,方法还包括:
S701、在目标线性层中固定原始训练参数,并根据更新后的下游任务训练集对目标线性层中的下游任务调整参数重新进行调参处理;
S702、根据重新调参完成的下游任务调整参数和原始训练参数重新确定目标线性层,并基于重新确定的目标线性层得到训练完成的目标识别模型。
具体的,根据调参完成的下游任务调整参数和原始训练参数得到目标线性层后,若下游任务出现细微更新,例如,下游任务为面部识别,下游任务微调为如配合式非口罩场景、非配合式口罩场景下进行面部识别,则需要进而二次更新,此时,则在目标线性层中固定原始训练参数,并根据更新后的下游任务训练集对目标线性层中的下游任务调整参数重新进行调参处理,进而实现对线性层中的下游任务调整参数进行更新。
然后根据重新调参完成的下游任务调整参数和原始训练参数重新确定目标线性层,并基于重新确定的目标线性层得到训练完成的目标识别模型。
根据本申请实施例提供的技术方案,在目标线性层中固定原始训练参数,并根据更新后的下游任务训练集对目标线性层中的下游任务调整参数重新进行调参处理;根据重新调参完成的下游任务调整参数和原始训练参数重新确定目标线性层,并基于重新确定的目标线性层得到训练完成的目标识别模型,本示例根据更新的下游任务,直接在调参完成的下游任务调整参数进行更新,进一步的减少了训练工作量,达到了节约系统资源的效果。
在一些示例中,如图8所示,基于目标线性层得到训练完成的目标识别模型之后,方法还包括:
S801、获取待识别目标图像,将待识别目标图像输入到目标识别模型,以使得目标识别模型基于设置有下游任务调整参数和原始训练参数的线性层对待识别目标图像进行目标识别;
S802、获取目标识别模型输出的目标识别结果,该目标识别结果用于确定目标识别模型是否识别到目标。
具体的,获取待识别目标图像,然后将待识别目标图像输入到目标识别模型,目标识别模型将待识别目标图像转换为输入特征向量,并基于设置有下游任务调整参数和原始训练参数的线性层对输入特征向量进行处理,得到输出特征向量,并基于该输出特征向量确定目标识别模型是否识别到目标。
例如,设待识别目标图像对应的输入特征向量为x,下游任务调整参数为,原始训练参数为W,则输出特征向量/>,将输出特征向量y作为目标识别结果,该目标识别结果用于确定目标识别模型是否识别到目标。
根据本申请实施例提供的技术方案,获取待识别目标图像,将待识别目标图像输入到目标识别模型,以使得目标识别模型基于设置有下游任务调整参数和原始训练参数的线性层对待识别目标图像进行目标识别;获取目标识别模型输出的目标识别结果,该目标识别结果用于确定目标识别模型是否识别到目标,通过设置有下游任务调整参数和原始训练参数的线性层对待识别目标图像进行目标识别,实现在下游任务中,准确的对待识别目标图像进行目标识别的效果。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
本实施例还提供一种目标识别模型训练装置,如图9所示,该目标识别模型包括自注意力层和全连接层,每个自注意力层和每个全连接层均包含至少一个线性层,该装置包括:
确定模块901,被配置为确定线性层对应的原始训练参数,原始训练参数是基于原始训练模型对线性层进行目标识别训练所得到的;
调参模块902,被配置为在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理;
配置模块903,被配置为根据调参完成的下游任务调整参数和原始训练参数得到目标线性层,并基于目标线性层得到训练完成的目标识别模型,目标识别模型用于在下游任务中进行目标识别。
在本实施例的一些示例中,下游任务调整参数由第一可训练参数矩阵和第二可训练参数矩阵构成;调参模块902,还被配置为确定线性层的输入特征向量长度和输出特征向量长度;根据输入特征向量长度和输出特征向量长度确定第一可训练参数矩阵的目标秩,根据输入特征向量长度和输出特征向量长度确定第二可训练参数矩阵的目标秩;根据第一可训练参数矩阵的目标秩和输入特征向量长度,初始化第一可训练参数矩阵;根据第二可训练参数矩阵的目标秩和输出特征向量长度,初始化第二可训练参数矩阵。
在本实施例的一些示例中,调参模块902还被配置为将输入特征向量长度和输出特征向量长度进行比较,并将输入特征向量长度和输出特征向量长度中的低值作为目标特征向量长度;基于加权参数对目标特征向量长度进行加权处理,得到第一可训练参数矩阵的目标秩。
在本实施例的一些示例中,调参模块902还被配置为将输入特征向量长度作为第一可训练参数矩阵的行数,将第一可训练参数矩阵的目标秩作为第一可训练参数矩阵的列数;根据确定的行数和列数构建第一可训练参数矩阵,并将第一可训练参数矩阵中的每个元素初始化为零。
在本实施例的一些示例中,调参模块902还被配置为将第二可训练参数矩阵的目标秩作为第二可训练参数矩阵的行数,将输出特征向量长度作为第二可训练参数矩阵的列数;根据确定的行数和列数构建第二可训练参数矩阵,并根据标准正太分布的采样值对第二可训练参数矩阵中的每个元素进行赋值。
在本实施例的一些示例中,配置模块903还被配置为在目标线性层中固定原始训练参数,并根据更新后的下游任务训练集对目标线性层中的下游任务调整参数重新进行调参处理;根据重新调参完成的下游任务调整参数和原始训练参数重新确定目标线性层,并基于重新确定的目标线性层得到训练完成的目标识别模型。
在本实施例的一些示例中,配置模块903还被配置为获取待识别目标图像,将待识别目标图像输入到目标识别模型,以使得目标识别模型基于设置有下游任务调整参数和原始训练参数的线性层对待识别目标图像进行目标识别;获取目标识别模型输出的目标识别结果,目标识别结果用于确定目标识别模型是否识别到目标。
根据本申请实施例提供的技术方案,本申请实施例的装置通过在线性层中固定原始训练参数,并根据下游任务训练集对线性层中的下游任务调整参数进行调参处理,根据调参完成的下游任务调整参数和原始训练参数得到目标线性层,并基于目标线性层得到训练完成的目标识别模型,实现了对线性层中下游任务调整参数进行训练,在训练完成后,使得得到的目标线性层能够支持下游任务,避免了直接对线性层中的所有参数进行训练,导致重复训练原始参数,且使得线性层训练量大,所需训练资源多的问题,进而降低了目标识别模型的训练量,节约了系统资源。
图10是本申请实施例提供的电子设备10的示意图。如图10所示,该实施例的电子设备10包括:处理器1001、存储器1002以及存储在该存储器1002中并且可在处理器1001上运行的计算机程序1003。处理器1001执行计算机程序1003时实现上述各个方法实施例中的步骤。或者,处理器1001执行计算机程序1003时实现上述各装置实施例中各模块/单元的功能。
电子设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备10可以包括但不仅限于处理器1001和存储器1002。本领域技术人员可以理解,图10仅仅是电子设备10的示例,并不构成对电子设备10的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器1001可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器1002可以是电子设备10的内部存储单元,例如,电子设备10的硬盘或内存。存储器1002也可以是电子设备10的外部存储设备,例如,电子设备10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。存储器1002还可以既包括电子设备10的内部存储单元也包括外部存储设备。存储器1002用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种目标识别模型训练方法,其特征在于,所述目标识别模型包括自注意力层和全连接层,每个所述自注意力层和每个所述全连接层均包含至少一个线性层,所述方法包括:
确定所述线性层对应的原始训练参数,所述原始训练参数是基于原始训练数据集对所述线性层进行目标识别训练所得到的;
在所述线性层中固定所述原始训练参数,并根据下游任务训练集对所述线性层中的下游任务调整参数进行调参处理;
根据调参完成的所述下游任务调整参数和所述原始训练参数得到目标线性层,并基于所述目标线性层得到训练完成的所述目标识别模型,所述目标识别模型用于在下游任务中进行目标识别;
获取待识别目标图像,将所述待识别目标图像输入到所述目标识别模型,以使得所述目标识别模型基于设置有所述下游任务调整参数和所述原始训练参数的线性层对所述待识别目标图像进行目标识别;获取所述目标识别模型输出的目标识别结果,所述目标识别结果用于确定所述目标识别模型是否识别到目标;
所述下游任务调整参数由第一可训练参数矩阵和第二可训练参数矩阵构成;在所述线性层中固定所述原始训练参数,并根据下游任务训练集对所述线性层中的下游任务调整参数进行调参处理之前,所述方法还包括:确定所述线性层的输入特征向量长度和输出特征向量长度;根据所述输入特征向量长度和所述输出特征向量长度确定所述第一可训练参数矩阵的目标秩,根据所述输入特征向量长度和所述输出特征向量长度确定所述第二可训练参数矩阵的目标秩;根据所述第一可训练参数矩阵的目标秩和所述输入特征向量长度,初始化所述第一可训练参数矩阵;根据所述第二可训练参数矩阵的目标秩和所述输出特征向量长度,初始化所述第二可训练参数矩阵。
2.根据权利要求1所述的方法,其特征在于,根据所述输入特征向量长度和所述输出特征向量长度确定所述第一可训练参数矩阵,包括:
将所述输入特征向量长度和所述输出特征向量长度进行比较,并将所述输入特征向量长度和所述输出特征向量长度中的低值作为目标特征向量长度;
基于加权参数对所述目标特征向量长度进行加权处理,得到所述第一可训练参数矩阵的目标秩。
3.根据权利要求1所述的方法,其特征在于,根据所述第一可训练参数矩阵的目标秩和所述输入特征向量长度初始化所述第一可训练参数矩阵,包括:
将所述输入特征向量长度作为所述第一可训练参数矩阵的行数,将所述第一可训练参数矩阵的目标秩作为所述第一可训练参数矩阵的列数;
根据确定的行数和列数构建所述第一可训练参数矩阵,并将所述第一可训练参数矩阵中的每个元素初始化为零。
4.根据权利要求1所述的方法,其特征在于,根据所述第二可训练参数矩阵的目标秩和所述输出特征向量长度,初始化所述第二可训练参数矩阵,包括:
将所述第二可训练参数矩阵的目标秩作为所述第二可训练参数矩阵的行数,将所述输出特征向量长度作为所述第二可训练参数矩阵的列数;
根据确定的行数和列数构建所述第二可训练参数矩阵,并根据标准正太分布的采样值对所述第二可训练参数矩阵中的每个元素进行赋值。
5.根据权利要求1所述的方法,其特征在于,若下游任务更新,则根据调参完成的所述下游任务调整参数和所述原始训练参数得到目标线性层之后,所述方法还包括:
在所述目标线性层中固定所述原始训练参数,并根据更新后的下游任务训练集对所述目标线性层中的下游任务调整参数重新进行调参处理;
根据重新调参完成的所述下游任务调整参数和所述原始训练参数重新确定所述目标线性层,并基于重新确定的所述目标线性层得到训练完成的所述目标识别模型。
6.一种目标识别模型训练装置,其特征在于,所述目标识别模型包括自注意力层和全连接层,每个所述自注意力层和每个所述全连接层均包含至少一个线性层,所述装置包括:
确定模块,用于确定所述线性层对应的原始训练参数,所述原始训练参数是基于原始训练模型对所述线性层进行目标识别训练所得到的;
调参模块,用于在所述线性层中固定所述原始训练参数,并根据下游任务训练集对所述线性层中的下游任务调整参数进行调参处理;
配置模块,用于根据调参完成的所述下游任务调整参数和所述原始训练参数得到目标线性层,并基于所述目标线性层得到训练完成的所述目标识别模型,所述目标识别模型用于在下游任务中进行目标识别;
获取待识别目标图像,将所述待识别目标图像输入到所述目标识别模型,以使得所述目标识别模型基于设置有所述下游任务调整参数和所述原始训练参数的线性层对所述待识别目标图像进行目标识别;获取所述目标识别模型输出的目标识别结果,所述目标识别结果用于确定所述目标识别模型是否识别到目标;
所述下游任务调整参数由第一可训练参数矩阵和第二可训练参数矩阵构成;在所述线性层中固定所述原始训练参数,并根据下游任务训练集对所述线性层中的下游任务调整参数进行调参处理之前,还包括:确定所述线性层的输入特征向量长度和输出特征向量长度;根据所述输入特征向量长度和所述输出特征向量长度确定所述第一可训练参数矩阵的目标秩,根据所述输入特征向量长度和所述输出特征向量长度确定所述第二可训练参数矩阵的目标秩;根据所述第一可训练参数矩阵的目标秩和所述输入特征向量长度,初始化所述第一可训练参数矩阵;根据所述第二可训练参数矩阵的目标秩和所述输出特征向量长度,初始化所述第二可训练参数矩阵。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168809.0A CN116910566B (zh) | 2023-09-12 | 2023-09-12 | 一种目标识别模型训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168809.0A CN116910566B (zh) | 2023-09-12 | 2023-09-12 | 一种目标识别模型训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116910566A CN116910566A (zh) | 2023-10-20 |
CN116910566B true CN116910566B (zh) | 2024-01-05 |
Family
ID=88358721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311168809.0A Active CN116910566B (zh) | 2023-09-12 | 2023-09-12 | 一种目标识别模型训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910566B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782960A (zh) * | 2022-06-22 | 2022-07-22 | 深圳思谋信息科技有限公司 | 模型训练方法、装置、计算机设备及计算机可读存储介质 |
CN115496970A (zh) * | 2022-10-21 | 2022-12-20 | 北京百度网讯科技有限公司 | 图像任务模型的训练方法、图像识别方法以及相关装置 |
CN115546549A (zh) * | 2022-10-11 | 2022-12-30 | 中国科学院微电子研究所 | 点云分类模型构建方法、点云分类方法、装置及设备 |
CN116629342A (zh) * | 2023-05-29 | 2023-08-22 | 深圳须弥云图空间科技有限公司 | 模型旁路调优方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230106213A1 (en) * | 2021-10-05 | 2023-04-06 | Samsung Electronics Co., Ltd. | Machine learning model compression using weighted low-rank factorization |
-
2023
- 2023-09-12 CN CN202311168809.0A patent/CN116910566B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782960A (zh) * | 2022-06-22 | 2022-07-22 | 深圳思谋信息科技有限公司 | 模型训练方法、装置、计算机设备及计算机可读存储介质 |
CN115546549A (zh) * | 2022-10-11 | 2022-12-30 | 中国科学院微电子研究所 | 点云分类模型构建方法、点云分类方法、装置及设备 |
CN115496970A (zh) * | 2022-10-21 | 2022-12-20 | 北京百度网讯科技有限公司 | 图像任务模型的训练方法、图像识别方法以及相关装置 |
CN116629342A (zh) * | 2023-05-29 | 2023-08-22 | 深圳须弥云图空间科技有限公司 | 模型旁路调优方法及装置 |
Non-Patent Citations (1)
Title |
---|
Regex-augmented Domain Transfer Topic Classification based on a Pre-trained Language Model: An application in Financial Domain;Vanessa Liao et al.;《https://arxiv.org/abs/2305.18324》;第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116910566A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197652B (zh) | 用于生成信息的方法和装置 | |
CN109829432B (zh) | 用于生成信息的方法和装置 | |
CN111831855B (zh) | 用于匹配视频的方法、装置、电子设备和介质 | |
WO2020125229A1 (zh) | 特征融合方法、装置、电子设备及存储介质 | |
US20220366312A1 (en) | Method and apparatus for training item coding model | |
CN116385328A (zh) | 基于为图像添加噪声的图像数据增强方法及装置 | |
CN117238451A (zh) | 训练方案确定方法、装置、电子设备和存储介质 | |
CN114420135A (zh) | 基于注意力机制的声纹识别方法及装置 | |
CN111539287A (zh) | 训练人脸图像生成模型的方法和装置 | |
CN111915689B (zh) | 用于生成目标函数的方法、装置、电子设备和计算机可读介质 | |
CN116910566B (zh) | 一种目标识别模型训练方法和装置 | |
WO2021012691A1 (zh) | 用于检索图像的方法和装置 | |
CN115048430B (zh) | 数据核验方法、系统、装置及存储介质 | |
CN115953803A (zh) | 人体识别模型的训练方法及装置 | |
CN110209851B (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN111680754A (zh) | 图像分类方法、装置、电子设备及计算机可读存储介质 | |
CN111353585A (zh) | 神经网络模型的结构搜索方法和装置 | |
CN116911954B (zh) | 基于兴趣和流行度推荐物品的方法及装置 | |
CN116911928B (zh) | 一种基于创意特征的广告推荐模型的训练方法及装置 | |
CN116912630A (zh) | 一种目标识别方法和装置 | |
CN116383391B (zh) | 一种文本分类方法及装置 | |
CN116501993B (zh) | 房源数据推荐方法及装置 | |
CN115760791A (zh) | 图片质量评估方法及装置 | |
CN115170674B (zh) | 基于单张图像的相机主点标定方法、装置、设备和介质 | |
CN111814807B (zh) | 用于处理图像的方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |