CN117521759A - 大模型的训练方法和装置 - Google Patents
大模型的训练方法和装置 Download PDFInfo
- Publication number
- CN117521759A CN117521759A CN202410010377.9A CN202410010377A CN117521759A CN 117521759 A CN117521759 A CN 117521759A CN 202410010377 A CN202410010377 A CN 202410010377A CN 117521759 A CN117521759 A CN 117521759A
- Authority
- CN
- China
- Prior art keywords
- training
- network
- sub
- large model
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 187
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000008569 process Effects 0.000 claims abstract description 49
- 239000013598 vector Substances 0.000 claims description 94
- 230000004927 fusion Effects 0.000 claims description 37
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000000873 masking effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 188
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000001994 activation Methods 0.000 description 3
- 239000004744 fabric Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本说明书实施例提供一种大模型的训练方法和装置,所述大模型包括具有相同第一结构的第一数目个第一网络层;方法包括:在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;在取消所述第一约束条件限制的情况下,对初步训练后的所述大模型进行继续训练。能够保证模型快速收敛。
Description
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及大模型的训练方法和装置。
背景技术
在人工智能领域,大模型是指具有大量参数的模型,例如,拥有超过10亿个参数的深度神经网络,它们能够处理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。随着计算机硬件性能的不断提升和深度学习算法的不断优化,大模型的发展也越来越快速。大模型的参数规模不断扩大,训练时间也越来越长,性能也随之提升。现在,大模型已经成为人工智能领域的重要研究方向之一,许多企业和机构都在研发自己的大模型,以期在各种任务上取得更好的表现。
现有技术中,可以搜集大量样本数据来训练自己的大模型,其中,样本数据可能涉及用户的隐私数据,需要保护隐私数据不被泄露。此外,在训练大模型时,由于模型的参数量过大常常造成模型不收敛。
发明内容
本说明书一个或多个实施例描述了一种大模型的训练方法和装置,能够保证模型快速收敛。
第一方面,提供了一种大模型的训练方法,大模型包括具有相同第一结构的第一数目个第一网络层;方法包括:
在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;
在取消所述第一约束条件限制的情况下,对初步训练后的所述大模型进行继续训练。
在一种可能的实施方式中,所述第一结构包括第一网络部分和第二网络部分;所述继续训练包括,先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练;其中,所述第二约束条件限定,子训练过程中不同的第一网络层的第一网络部分采用相同的参数。
进一步地,所述大模型具体为适用于图片模态和文本模态的多模态大模型,所述第一网络部分包括自注意力子层,所述第二网络部分包括,对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层。
在一种可能的实施方式中,所述大模型还包括具有相同第二结构的第二数目个第二网络层;所述第一约束条件还限定,在所述初步训练过程中,不同的第二网络层采用相同的参数。
进一步地,所述第二结构包括第三网络部分和第四网络部分;所述继续训练包括,先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练;所述第二约束条件限定,在子训练过程中,不同的第二网络层的第三网络部分采用相同的参数。
进一步地,所述第一结构包括第一网络部分和第二网络部分;所述第二约束条件还限定,在子训练过程中,不同的第一网络层的第一网络部分采用相同的参数。
进一步地,所述大模型具体为适用于图片模态和文本模态的多模态大模型,所述第一网络部分包括自注意力子层,所述第二网络部分包括,对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层;所述第三网络部分为两个模态共享的自注意力子层,所述第四网络部分包括两个模态共享的第三前馈神经网络子层。
在一种可能的实施方式中,所述大模型为适用于图片模态和文本模态的多模态大模型,其输入包括图片模态的第一初始向量和文本模态的第二初始向量,输出包括图片模态的第一融合向量和文本模态的第二融合向量;所述第一初始向量包括样本图片的图片嵌入向量和其中多个图像块分别对应的块嵌入向量,所述第二初始向量包括样本句子的句子嵌入向量和其中多个分词分别对应的词嵌入向量,所述第一融合向量包括样本图片的图片融合向量和所述多个图像块分别对应的块融合向量,所述第二融合向量包括样本句子的句子融合向量和所述多个分词分别对应的词融合向量。
进一步地,所述初步训练和/或所述继续训练包括如下的训练方式:通过最大化正样本对中包括的样本图片和样本句子的相似性分数,并且最小化负样本对中包括的样本图片和样本句子的相似性分数,调整模型参数;相似性分数根据样本图片的图片融合向量和样本句子的句子融合向量的向量相似度而确定。
进一步地,所述初步训练和/或所述继续训练包括如下的训练方式:随机掩盖所述第一初始向量中部分图像块对应的块嵌入向量,或者,随机掩盖所述第二初始向量中部分分词对应的词嵌入向量,通过模型的输出预测掩盖的图像块或分词,根据预测的掩盖对象和实际的掩盖对象,调整模型参数。
第二方面,提供了一种大模型的训练装置,大模型包括具有相同第一结构的第一数目个第一网络层;装置包括:
第一训练单元,用于在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;
第二训练单元,用于在取消所述第一约束条件限制的情况下,对所述第一训练单元得到的初步训练后的所述大模型进行继续训练。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,针对大模型包括具有相同第一结构的第一数目个第一网络层这样的结构特征,采用了如下的训练方式:首先在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;然后在取消所述第一约束条件限制的情况下,对初步训练后的所述大模型进行继续训练。由上可见,本说明书实施例,在所述初步训练过程中,不同的第一网络层采用相同的参数,使得模型训练中待调整的参数量相对于原参数量大大减小,后续在所述继续训练过程中,再逐步扩大待调整的参数量,能够保证模型快速收敛。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2为本说明书披露的另一个实施例的实施场景示意图;
图3为本说明书披露的另一个实施例的实施场景示意图;
图4示出根据一个实施例的大模型的训练方法流程图;
图5示出根据一个实施例的大模型的训练装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及大模型的训练,大模型包括具有相同第一结构的第一数目个第一网络层,可以理解的是,不同的第一网络层具有相同的结构,也就是说,大模型具有重复结构。参照图1,本说明书实施例,大模型具有重复结构,该重复结构构成大模型的主要组成部分,可选地,大模型在具有上述重复结构的基础上,还可以包含其他的组成部分。举例来说,图1中的大模型包括L1层的第一网络层,该L1层的第一网络层就属于重复结构,此外,还包括了第二网络层和第三网络层,其中,第二网络层和第三网络层为可选组成部分。图1中示出了大模型的一种可能的组成结构,与图1所示的情况不同,大模型可以仅包括L1层的第一网络层,或者仅包括L1层的第一网络层和第二网络层,或者仅包括L1层的第一网络层和第三网络层。
需要说明的是,当大模型中还包括第二网络层和/或第三网络层时,对于第二网络层和/或第三网络层的层数不做具体限定,也就是说,大模型可以仅包括一层第二网络层,也可以包括多层具有相同结构的第二网络层,类似地,大模型可以仅包括一层第三网络层,也可以包括多层具有相同结构的第三网络层,多层具有相同结构的第二网络层或第三网络层形成重复结构。本说明书实施例,大模型可以仅包括一组重复结构,也可以包括多组重复结构。
本说明书实施例,大模型具有大量参数,可以达到百亿级参数量,如果不进行预训练参数初始化,完全从0开始训练(train from scratch),常常会出现模型训练过程中不收敛。
通常地,会采用逐层训练的方式训练大模型,对于一个共有L层的大模型,先训练好第一层固定住,再训练第二层,固定住第一、二层,训练第3层,直至第L层,训练步骤比较多,无法实现快速收敛。
为了解决上述问题,本说明书实施例,从大模型的结构特征出发,先对不同的第一网络层采用相同的参数,对模型进行初步训练,使得模型训练中待调整的参数量相对于原参数量大大减小,后续在继续训练过程中,再逐步扩大待调整的参数量,能够保证模型快速收敛。
图2为本说明书披露的另一个实施例的实施场景示意图。该实施场景中,大模型具体为多模态大模型。多模态大模型是输入包含多种模态具有大量参数的模型,比如,图片模态、文本模态、音频模态、视频模态。本说明书实施例,多模态大模型的输入包含图片模态和文本模态,例如,样本图片包括的多个图像块分别对应的块嵌入向量和样本句子包括的多个分词分别对应的词嵌入向量,样本句子为“一个棒球运动员正在扔棒球”,样本图片为与样本句子的内容相一致的图片,图片中通过色彩或线条等表达与文字相一致的内容。模型结构涉及自注意力子层(multi-head self-attention,MHA)和前馈神经网络子层(feed-forward network,FFN)。参照图2,模型结构一共L层,其中,前L-F层为L-F个第一网络层,后F层为F个第二网络层,第一网络层具有第一结构,第一结构包括第一网络部分和第二网络部分,所述第一网络部分为两个模态共享的自注意力子层MHA,所述第二网络部分包括,对应于图片模态的第一前馈神经网络子层V-FFN和对应于文本模态的第二前馈神经网络子层L-FFN。第二网络层具有第二结构,第二结构包括第三网络部分和第四网络部分,所述第三网络部分为两个模态共享的自注意力子层MHA,所述第四网络部分包括两个模态共享的第三前馈神经网络子层VL-FFN。
其中,模型一共L层,前L-F层MHA部分不同模态共享,FFN部分不同模态独享,后F层MHA部分和FFN部分都是不同模态共享,结构堆叠使得不同模态之间在不同层进行融合,通过尽可能共享不同模态的参数,来增强模型对不同模态的融合能力,有利于提升多模态的表征能力。
本说明书实施例,大模型可以为企业和机构自行研发的大模型,具有大量参数,例如达到百亿级参数量。以大模型具体为多模态大模型为例,可以通过增加深度和宽度来增大模型参数量,提升模型对多模态内容的表征能力。其中,增加深度就是增加层数,增加宽度可以是把输入数据的特征维度增大,或者把MHA 子层中多头注意力的头数增大等。
可以理解的是,图2中第一网络层和第二网络层均属于重复结构。本说明书实施例,在一种可选的方案中,可以先对不同的第一网络层采用相同的参数,以及对不同的第二网络层采用相同的参数,对模型进行初步训练,使得模型训练中待调整的参数量相对于原参数量大大减小,后续在继续训练过程中,再逐步扩大待调整的参数量,能够保证模型快速收敛;在另一种可选的方案中,若L-F远大于F,也就是说,第一网络层是大模型的主要组成部分,第二网络层是大模型的次要组成部分,则可以忽略第二网络层的参数量,仅对不同的第一网络层采用相同的参数,对模型进行初步训练,使得模型训练中待调整的参数量相对于原参数量大大减小,后续在继续训练过程中,再逐步扩大待调整的参数量,能够保证模型快速收敛。
需要说明的是,图2所示的多模态大模型的模型结构仅为一种可能的模型结构,本说明书实施例,当进行多模态大模型的训练时,多模态大模型的结构可以是灵活多样的,只要其包括具有相同第一结构的第一数目个第一网络层即可,对于第一网络层的具体结构并不限定,并不局限于图2所示的模型结构,例如,第一网络层具有第一结构,第一结构包括第一网络部分和第二网络部分,所述第一网络部分包括对应于图片模态的第一自注意力子层V-MHA和对应于文本模态的第二注意力子层L-MHA,所述第二网络部分包括,对应于图片模态的第一前馈神经网络子层V-FFN和对应于文本模态的第二前馈神经网络子层L-FFN。
图3为本说明书披露的另一个实施例的实施场景示意图。大模型具体为图2所示的多模态大模型,模型结构涉及MHA子层和FFN子层,图3示出了MHA子层和FFN子层的可能的结构。参照图3,MHA子层针对其输入x依次进行正则化处理、线性处理、注意力机制处理、正则化处理、线性处理,MHA子层的输出作为FFN子层的输入,FFN子层针对其输入依次进行正则化处理、线性处理、激活处理、正则化处理、线性处理。其中,正则化处理进行归一化或标准化操作,归一化是指将输入映射到 0-1 之间,例如将彩色图像的像素值除以255,将像素值归一化到0-1;标准化是指对输入数据进行处理,使其具有均值为0,方差为1的高斯分布,例如,LN属于常见的标准化操作。线性处理,可通过Linear函数实现,其中涉及大量参数,在模型训练之前可以先对这些参数进行初始化。注意力机制处理,注意力机制就是通常所说的Attention机制,在深度学习领域,模型往往需要接收和处理大量的数据,然而在特定的某个时刻,往往只有少部分的某些数据是重要的,这种情况就非常适合采用Attention机制。激活处理,例如采用的激活函数为ReLU,ReLu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。
由图3可见,在MHA子层和FFN子层中也存在着重复结构,例如,在MHA子层中正则化处理、线性处理均重复出现,在FFN子层中正则化处理、线性处理也均重复出现。
本说明书实施例,可以先对具有相同结构的不同处理单元采用相同的参数,对模型进行初步训练,使得模型训练中待调整的参数量相对于原参数量大大减小,后续在继续训练过程中,再逐步扩大待调整的参数量,能够保证模型快速收敛。其中,上述处理单元可以指代模型的网络层,或者网络层进一步划分的子层,或者子层进一步划分的处理结构等。此外,具有相同结构的不同处理单元可以是相邻的两个处理单元,例如,图1中的相邻的两个第一网络层,也可以是不相邻的两个处理单元,例如,图2中的前L-F层中的任意两个MHA子层,或者,图3中MHA子层中的两个正则化处理结构。
图4示出根据一个实施例的大模型的训练方法流程图,所述大模型包括具有相同第一结构的第一数目个第一网络层,该方法可以基于图1、图2或图3所示的实施场景。如图4所示,该实施例中大模型的训练方法包括以下步骤:步骤41,在第一约束条件下对大模型进行初步训练;第一约束条件限定,在初步训练过程中,不同的第一网络层采用相同的参数;步骤42,在取消第一约束条件限制的情况下,对初步训练后的大模型进行继续训练。下面描述以上各个步骤的具体执行方式。
首先在步骤41,在第一约束条件下对大模型进行初步训练;第一约束条件限定,在初步训练过程中,不同的第一网络层采用相同的参数。可以理解的是,不同的第一网络层采用相同的参数,可以使得第一数目个第一网络层的总参数量减小为一个第一网络层的参数量。
本说明书实施例,大模型可以仅包括第一数目个第一网络层,还可以不仅包括第一数目个第一网络层,还包括其他的网络层,例如,图1中大模型不仅包括第一数目个第一网络层还包括第二网络层和/或第三网络层,大模型可以仅具有一个第二网络层也可以具有多个相同结构的第二网络层,类似地,大模型可以仅具有一个第三网络层也可以具有多个相同结构的第三网络层。
在一个示例中,所述大模型还包括具有相同第二结构的第二数目个第二网络层;所述第一约束条件还限定,在所述初步训练过程中,不同的第二网络层采用相同的参数。
该示例中,不同的第二网络层采用相同的参数,可以使得第二数目个第二网络层的总参数量减小为一个第二网络层的参数量,从而进一步减小了整个大模型的总参数量。
然后在步骤42,在取消第一约束条件限制的情况下,对初步训练后的大模型进行继续训练。可以理解的是,取消第一约束条件限制,也就是说,不同的第一网络层可以采用不同的参数,使得继续训练过程相对于初步训练过程模型的参数量增加。
本说明书实施例,在继续训练过程中可以不采用任何约束条件,完全放开所有参数继续进行训练;或者,将继续训练划分为先后进行的多个子训练,在每个子训练中采取不同的约束条件,最后一个子训练中不采取约束条件,使得采取约束条件的子训练中不同的第一网络层中部分参数相同,后进行的子训练相对于先进行的子训练,不同的第一网络层中越少参数相同,逐步放开参数进行训练,最后进行的子训练可以放开所有参数进行训练。
在一个示例中,所述第一结构包括第一网络部分和第二网络部分;所述继续训练包括,先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练;其中,所述第二约束条件限定,子训练过程中不同的第一网络层的第一网络部分采用相同的参数。
进一步地,所述大模型具体为适用于图片模态和文本模态的多模态大模型,所述第一网络部分包括自注意力子层,所述第二网络部分包括,对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层。
其中,第一网络部分可以包括两个模态共享的自注意力子层,或者,第一网络部分可以包括对应于图片模态的第一自注意力子层和对应于文本模态的第二自注意力子层。
举例来说,图2中模型的前L-F层为第一数目个第一网络层,第一网络部分为自注意力子层MHA,第二网络部分包括第一前馈神经网络子层V-FFN和第二前馈神经网络子层L-FFN。
在一个示例中,所述大模型还包括具有相同第二结构的第二数目个第二网络层;所述第一约束条件还限定,在所述初步训练过程中,不同的第二网络层采用相同的参数。进一步地,所述第二结构包括第三网络部分和第四网络部分;所述继续训练包括,先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练;所述第二约束条件限定,在子训练过程中,不同的第二网络层的第三网络部分采用相同的参数。
该示例中,针对大模型包括具有相同第一结构的第一数目个第一网络层,还包括具有相同第二结构的第二数目个第二网络层,在初步训练过程,不同的第一网络层采用相同的参数,不同的第二网络层也采用相同的参数;在继续训练过程,可以完全放开对第一网络层的参数限制,对第二网络层在先后进行的多个子训练中逐步放开参数进行训练。
进一步地,所述第一结构包括第一网络部分和第二网络部分;所述第二约束条件还限定,在子训练过程中,不同的第一网络层的第一网络部分采用相同的参数。
该示例中,针对大模型包括具有相同第一结构的第一数目个第一网络层,还包括具有相同第二结构的第二数目个第二网络层,在初步训练过程,不同的第一网络层采用相同的参数,不同的第二网络层也采用相同的参数;在继续训练过程,对第一网络层和第二网络层均在先后进行的多个子训练中逐步放开参数进行训练。
进一步地,所述大模型具体为适用于图片模态和文本模态的多模态大模型,所述第一网络部分包括自注意力子层,所述第二网络部分包括,对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层;所述第三网络部分为两个模态共享的自注意力子层,所述第四网络部分包括两个模态共享的第三前馈神经网络子层。
其中,第一网络部分可以包括两个模态共享的自注意力子层,或者,第一网络部分可以包括对应于图片模态的第一自注意力子层和对应于文本模态的第二自注意力子层。
举例来说,图2中模型的前L-F层为第一数目个第一网络层,第一网络部分为自注意力子层MHA,第二网络部分包括第一前馈神经网络子层V-FFN和第二前馈神经网络子层L-FFN。图2中模型的后F层为第二数目个第二网络层,第三网络部分为自注意力子层MHA,第四网络部分包括第三前馈神经网络子层VL-FFN。
在一个示例中,所述大模型为适用于图片模态和文本模态的多模态大模型,其输入包括图片模态的第一初始向量和文本模态的第二初始向量,输出包括图片模态的第一融合向量和文本模态的第二融合向量;所述第一初始向量包括样本图片的图片嵌入向量和其中多个图像块分别对应的块嵌入向量,所述第二初始向量包括样本句子的句子嵌入向量和其中多个分词分别对应的词嵌入向量,所述第一融合向量包括样本图片的图片融合向量和所述多个图像块分别对应的块融合向量,所述第二融合向量包括样本句子的句子融合向量和所述多个分词分别对应的词融合向量。
该示例中,将一个图片划分成了多个图像块,例如,将一个图片按照横向和纵向分别切分的方式划分成大小相等的9个图像块;将样本句子进行了分词处理,单个分词可以包括一个或多个字。
进一步地,所述初步训练和/或所述继续训练包括如下的训练方式:通过最大化正样本对中包括的样本图片和样本句子的相似性分数,并且最小化负样本对中包括的样本图片和样本句子的相似性分数,调整模型参数;相似性分数根据样本图片的图片融合向量和样本句子的句子融合向量的向量相似度而确定。
该示例,采用对比损失任务训练大模型,有利于大模型后续用于检索任务时得到很好的检索效果。
进一步地,所述初步训练和/或所述继续训练包括如下的训练方式:随机掩盖所述第一初始向量中部分图像块对应的块嵌入向量,或者,随机掩盖所述第二初始向量中部分分词对应的词嵌入向量,通过模型的输出预测掩盖的图像块或分词,根据预测的掩盖对象和实际的掩盖对象,调整模型参数。
该示例,采用掩码训练任务训练大模型,可以将掩码训练任务和对比损失任务相结合,一阶段采用掩码训练任务训练大模型,二阶段再采用对比损失任务训练大模型,有利于大模型后续用于一些偏理解的任务上取得很好的效果,例如,生成任务等。
本说明书实施例,针对大参数量的模型直接从0开始训练(train from scratch)存在收敛性问题,通过不断放开参数训练的方式来使得多模态大模型能够快速收敛。以图2所示的多模态大模型为例,可以采取如下的三步训练法:
第一步,进行层间参数共享。不同层采用相同的参数,使得总参数量近似是原参数量N的: N/L,训练到收敛为止;
第二步,进行MHA子层参数共享。不同层的MHA子层采用相同的参数,逐渐放开参数量进行训练到收敛;
第三步,放开所有参数进行训练到收敛。
需要说明的是,上述三步训练法是一种可选的训练过程,实际中,不断放开参数训练的方式具体可以是两步、三步、四步等,可结合具体的模型结构,选择完成训练所需要的步数。
通过本说明书实施例提供的方法,针对大模型包括具有相同第一结构的第一数目个第一网络层这样的结构特征,采用了如下的训练方式:首先在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;然后在取消所述第一约束条件限制的情况下,对初步训练后的所述大模型进行继续训练。由上可见,本说明书实施例,在所述初步训练过程中,不同的第一网络层采用相同的参数,使得模型训练中待调整的参数量相对于原参数量大大减小,后续在所述继续训练过程中,再逐步扩大待调整的参数量,能够保证模型快速收敛。
根据另一方面的实施例,还提供一种大模型的训练装置,所述大模型包括具有相同第一结构的第一数目个第一网络层,该装置用于执行本说明书实施例提供的方法。图5示出根据一个实施例的大模型的训练装置的示意性框图。如图5所示,该装置500包括:
第一训练单元51,用于在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;
第二训练单元52,用于在取消所述第一约束条件限制的情况下,对所述第一训练单元51得到的初步训练后的所述大模型进行继续训练。
可选地,作为一个实施例,所述第一结构包括第一网络部分和第二网络部分;所述继续训练包括,先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练;其中,所述第二约束条件限定,子训练过程中不同的第一网络层的第一网络部分采用相同的参数。
进一步地,所述大模型具体为适用于图片模态和文本模态的多模态大模型,所述第一网络部分包括自注意力子层,所述第二网络部分包括,对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层。
可选地,作为一个实施例,所述大模型还包括具有相同第二结构的第二数目个第二网络层;所述第一约束条件还限定,在所述初步训练过程中,不同的第二网络层采用相同的参数。
进一步地,所述第二结构包括第三网络部分和第四网络部分;所述继续训练包括,先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练;所述第二约束条件限定,在子训练过程中,不同的第二网络层的第三网络部分采用相同的参数。
进一步地,所述第一结构包括第一网络部分和第二网络部分;所述第二约束条件还限定,在子训练过程中,不同的第一网络层的第一网络部分采用相同的参数。
进一步地,所述大模型具体为适用于图片模态和文本模态的多模态大模型,所述第一网络部分包括自注意力子层,所述第二网络部分包括,对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层;所述第三网络部分为两个模态共享的自注意力子层,所述第四网络部分包括两个模态共享的第三前馈神经网络子层。
可选地,作为一个实施例,所述大模型为适用于图片模态和文本模态的多模态大模型,其输入包括图片模态的第一初始向量和文本模态的第二初始向量,输出包括图片模态的第一融合向量和文本模态的第二融合向量;所述第一初始向量包括样本图片的图片嵌入向量和其中多个图像块分别对应的块嵌入向量,所述第二初始向量包括样本句子的句子嵌入向量和其中多个分词分别对应的词嵌入向量,所述第一融合向量包括样本图片的图片融合向量和所述多个图像块分别对应的块融合向量,所述第二融合向量包括样本句子的句子融合向量和所述多个分词分别对应的词融合向量。
进一步地,所述初步训练和/或所述继续训练包括如下的训练方式:通过最大化正样本对中包括的样本图片和样本句子的相似性分数,并且最小化负样本对中包括的样本图片和样本句子的相似性分数,调整模型参数;相似性分数根据样本图片的图片融合向量和样本句子的句子融合向量的向量相似度而确定。
进一步地,所述初步训练和/或所述继续训练包括如下的训练方式:随机掩盖所述第一初始向量中部分图像块对应的块嵌入向量,或者,随机掩盖所述第二初始向量中部分分词对应的词嵌入向量,通过模型的输出预测掩盖的图像块或分词,根据预测的掩盖对象和实际的掩盖对象,调整模型参数。
通过本说明书实施例提供的装置,针对大模型包括具有相同第一结构的第一数目个第一网络层这样的结构特征,采用了如下的训练方式:首先第一训练单元51在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;然后第二训练单元52在取消所述第一约束条件限制的情况下,对初步训练后的所述大模型进行继续训练。由上可见,本说明书实施例,在所述初步训练过程中,不同的第一网络层采用相同的参数,使得模型训练中待调整的参数量相对于原参数量大大减小,后续在所述继续训练过程中,再逐步扩大待调整的参数量,能够保证模型快速收敛。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图4所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图4所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (13)
1.一种大模型的训练方法,所述大模型包括具有相同第一结构的第一数目个第一网络层;所述方法包括:
在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;
在取消所述第一约束条件限制的情况下,对初步训练后的所述大模型进行继续训练。
2.如权利要求1所述的方法,其中,所述第一结构包括第一网络部分和第二网络部分;所述继续训练包括,先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练;其中,所述第二约束条件限定,子训练过程中不同的第一网络层的第一网络部分采用相同的参数。
3.如权利要求2所述的方法,其中,所述大模型具体为适用于图片模态和文本模态的多模态大模型,所述第一网络部分包括自注意力子层,所述第二网络部分包括,对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层。
4.如权利要求1所述的方法,其中,所述大模型还包括具有相同第二结构的第二数目个第二网络层;所述第一约束条件还限定,在所述初步训练过程中,不同的第二网络层采用相同的参数。
5.如权利要求4所述的方法,其中,所述第二结构包括第三网络部分和第四网络部分;所述继续训练包括,先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练;所述第二约束条件限定,在子训练过程中,不同的第二网络层的第三网络部分采用相同的参数。
6.如权利要求5所述的方法,其中,所述第一结构包括第一网络部分和第二网络部分;所述第二约束条件还限定,在子训练过程中,不同的第一网络层的第一网络部分采用相同的参数。
7.如权利要求6所述的方法,其中,所述大模型具体为适用于图片模态和文本模态的多模态大模型,所述第一网络部分包括自注意力子层,所述第二网络部分包括,对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层;所述第三网络部分为两个模态共享的自注意力子层,所述第四网络部分包括两个模态共享的第三前馈神经网络子层。
8.如权利要求1所述的方法,其中,所述大模型为适用于图片模态和文本模态的多模态大模型,其输入包括图片模态的第一初始向量和文本模态的第二初始向量,输出包括图片模态的第一融合向量和文本模态的第二融合向量;所述第一初始向量包括样本图片的图片嵌入向量和其中多个图像块分别对应的块嵌入向量,所述第二初始向量包括样本句子的句子嵌入向量和其中多个分词分别对应的词嵌入向量,所述第一融合向量包括样本图片的图片融合向量和所述多个图像块分别对应的块融合向量,所述第二融合向量包括样本句子的句子融合向量和所述多个分词分别对应的词融合向量。
9.如权利要求8所述的方法,其中,所述初步训练和/或所述继续训练包括如下的训练方式:通过最大化正样本对中包括的样本图片和样本句子的相似性分数,并且最小化负样本对中包括的样本图片和样本句子的相似性分数,调整模型参数;相似性分数根据样本图片的图片融合向量和样本句子的句子融合向量的向量相似度而确定。
10.如权利要求8所述的方法,其中,所述初步训练和/或所述继续训练包括如下的训练方式:随机掩盖所述第一初始向量中部分图像块对应的块嵌入向量,或者,随机掩盖所述第二初始向量中部分分词对应的词嵌入向量,通过模型的输出预测掩盖的图像块或分词,根据预测的掩盖对象和实际的掩盖对象,调整模型参数。
11.一种大模型的训练装置,所述大模型包括具有相同第一结构的第一数目个第一网络层;所述装置包括:
第一训练单元,用于在第一约束条件下对所述大模型进行初步训练;所述第一约束条件限定,在所述初步训练过程中,不同的第一网络层采用相同的参数;
第二训练单元,用于在取消所述第一约束条件限制的情况下,对所述第一训练单元得到的初步训练后的所述大模型进行继续训练。
12.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项的所述的方法。
13.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项的所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410010377.9A CN117521759B (zh) | 2024-01-04 | 2024-01-04 | 大模型的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410010377.9A CN117521759B (zh) | 2024-01-04 | 2024-01-04 | 大模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117521759A true CN117521759A (zh) | 2024-02-06 |
CN117521759B CN117521759B (zh) | 2024-04-05 |
Family
ID=89744251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410010377.9A Active CN117521759B (zh) | 2024-01-04 | 2024-01-04 | 大模型的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521759B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021096571A1 (en) * | 2019-11-15 | 2021-05-20 | Intuit Inc. | Pre-trained contextual embedding models for named entity recognition and confidence prediction |
CN113158665A (zh) * | 2021-04-02 | 2021-07-23 | 西安交通大学 | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 |
CN113505883A (zh) * | 2021-05-31 | 2021-10-15 | 华为技术有限公司 | 一种神经网络训练方法以及装置 |
CN113553824A (zh) * | 2021-07-07 | 2021-10-26 | 临沂中科好孕智能技术有限公司 | 一种句子向量模型训练方法 |
CN115033670A (zh) * | 2022-06-02 | 2022-09-09 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
CN116563426A (zh) * | 2023-05-08 | 2023-08-08 | 北京有竹居网络技术有限公司 | 用于处理多模态数据的方法、装置、电子设备和介质 |
CN116644316A (zh) * | 2023-05-31 | 2023-08-25 | 杭州电子科技大学 | 一种面向多模态多任务学习的轻量化适配网络学习方法 |
US20230289590A1 (en) * | 2022-03-14 | 2023-09-14 | Samsung Electronics Co., Ltd. | Method and system for learning to share weights across transformer backbones in vision and language tasks |
CN116882477A (zh) * | 2023-07-11 | 2023-10-13 | 杭州电子科技大学 | 一种基于深度交互适配网络模型的通用多模态学习方法 |
CN117171573A (zh) * | 2023-09-21 | 2023-12-05 | 北京字跳网络技术有限公司 | 多模态模型的训练方法、装置、设备和存储介质 |
CN117273099A (zh) * | 2023-09-20 | 2023-12-22 | 西安科技大学 | 一种可重构阵列下Transformer网络模型数据复用方案与实现方法 |
-
2024
- 2024-01-04 CN CN202410010377.9A patent/CN117521759B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021096571A1 (en) * | 2019-11-15 | 2021-05-20 | Intuit Inc. | Pre-trained contextual embedding models for named entity recognition and confidence prediction |
CN113158665A (zh) * | 2021-04-02 | 2021-07-23 | 西安交通大学 | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 |
CN113505883A (zh) * | 2021-05-31 | 2021-10-15 | 华为技术有限公司 | 一种神经网络训练方法以及装置 |
CN113553824A (zh) * | 2021-07-07 | 2021-10-26 | 临沂中科好孕智能技术有限公司 | 一种句子向量模型训练方法 |
US20230289590A1 (en) * | 2022-03-14 | 2023-09-14 | Samsung Electronics Co., Ltd. | Method and system for learning to share weights across transformer backbones in vision and language tasks |
CN115033670A (zh) * | 2022-06-02 | 2022-09-09 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
CN116563426A (zh) * | 2023-05-08 | 2023-08-08 | 北京有竹居网络技术有限公司 | 用于处理多模态数据的方法、装置、电子设备和介质 |
CN116644316A (zh) * | 2023-05-31 | 2023-08-25 | 杭州电子科技大学 | 一种面向多模态多任务学习的轻量化适配网络学习方法 |
CN116882477A (zh) * | 2023-07-11 | 2023-10-13 | 杭州电子科技大学 | 一种基于深度交互适配网络模型的通用多模态学习方法 |
CN117273099A (zh) * | 2023-09-20 | 2023-12-22 | 西安科技大学 | 一种可重构阵列下Transformer网络模型数据复用方案与实现方法 |
CN117171573A (zh) * | 2023-09-21 | 2023-12-05 | 北京字跳网络技术有限公司 | 多模态模型的训练方法、装置、设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
SHENG SHEN ET.AL.: ""Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT"", 《ARXIV》, 12 November 2019 (2019-11-12) * |
刘佳文;屈丹;杨绪魁;张昊;唐君;: "基于Transformer的越南语连续语音识别", 信息工程大学学报, no. 02, 15 April 2020 (2020-04-15), pages 5 - 9 * |
李明琦等: "《基于NLP的内容理解》", 31 March 2023, 机械工业出版社, pages: 25 - 26 * |
陈曦等: ""基于预训练模型和编码器的图文跨模态检索算法"", 《北京邮电大学学报》, vol. 46, no. 05, 31 October 2023 (2023-10-31), pages 112 - 117 * |
Also Published As
Publication number | Publication date |
---|---|
CN117521759B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021047286A1 (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
US11803758B2 (en) | Adversarial pretraining of machine learning models | |
CN113591902B (zh) | 基于多模态预训练模型的跨模态理解与生成方法和装置 | |
Sohn et al. | Learning structured output representation using deep conditional generative models | |
EP3619651B1 (en) | System and method for batch-normalized recurrent highway networks | |
JP7291183B2 (ja) | モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品 | |
WO2019222401A2 (en) | Gradient adversarial training of neural networks | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN110188775B (zh) | 一种基于联合神经网络模型的图像内容描述自动生成方法 | |
WO2019045802A1 (en) | LEARNING DISTANCE MEASUREMENT USING PROXY MEMBERS | |
Uddin et al. | A perceptually inspired new blind image denoising method using $ L_ {1} $ and perceptual loss | |
Liu et al. | Bilaterally normalized scale-consistent sinkhorn distance for few-shot image classification | |
CN113869005A (zh) | 一种基于语句相似度的预训练模型方法和系统 | |
US20230065965A1 (en) | Text processing method and apparatus | |
US20230351203A1 (en) | Method for knowledge distillation and model genertation | |
CN117521759B (zh) | 大模型的训练方法和装置 | |
WO2024060839A1 (zh) | 对象操作方法、装置、计算机设备以及计算机存储介质 | |
Shi et al. | Multi-granularity knowledge distillation and prototype consistency regularization for class-incremental learning | |
CN116075820A (zh) | 用于搜索图像数据库的方法、非暂时性计算机可读存储介质和设备 | |
US20210365719A1 (en) | System and method for few-shot learning | |
Yang et al. | Multi-intent text classification using dual channel convolutional neural network | |
TWI781000B (zh) | 機器學習裝置以及方法 | |
CN115169548A (zh) | 基于张量的持续学习方法和装置 | |
Zeng et al. | Residual self-attention for visual question answering | |
US20240070816A1 (en) | Diffusion model image generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |